语音交互是未来UI设计的趋势吗?
Sam Lessin最近写了一篇叫做Time to Hang Up on Voice(是时候和语音说再见了)的文章,称语音不可能是未来UI交互的发展趋势。他主要提出了3个理由:第一,语音在公共场所嘈杂的坏境下很难被机器分辨和翻译,同时公共场所人多耳杂,用户隐私是一大问题;第二,对着机子说话比直接打字或者使用手势的效率来得低;第三,键盘这类工具更适合文字编辑。
但是Redpoint VC的Tomasz Tunguz有截然相反的看法。他在The Fastest User Interface一文中指出,Sam Lessin只要考虑到一点就知道自己错了:速度。
语音输入要比文字输入来得快。Barbara Blackburn拥有打字速度最快的世界纪录,也就每分钟212个单词,而说话速度最快的世界纪录得主Steve Woodmore每分钟可以说637个单词。也就是说,在人类自身的极限上,语音要比文字快3倍。而正常的普通人,打字速度大概在30-40个单词/分钟,说话速度大概在120个单词/分钟,依然是3倍关系。可见,这一比率关系是比较稳定的。
当然有同学要说Tomasz Tunguz耍赖了,因为打字速度可以基本转化为UI交互速度,说话说多快就不见得UI交互能多快了吧,机器还要翻译语音的时间呢。但我想指出的是,我们的讨论是基于未来的UI发展,未来的语音技术会大面积减小语音转化为交互的时间,而文字输入几乎已经没有多少可以提升的空间了。
Tomasz认为,正是因为速度的原因,我们更习惯给别人打电话而不是发邮件。他尝试学习Dvorak来改进打字的速度,但发邮件比起打电话还是慢太多了。也因此,语音邮件看起来似乎更有吸引力,更方便,也更人性化。
他还指出,Siri和谷歌语音搜索的成功也是受益于语音的速度。使用语音搜索时,每日搜索量将达到惊人的数以亿计。直接说“导航到XXX”或者“查询旧金山的天气情况”毕竟要比在狭小的键盘上一个一个的打字来得快得多。
至于公共场所的语音问题,Tomasz认为,我们事实上早就习惯了这一点。因为电话早已发明了一百多年了。声音去噪技术和社会道德意识让声音保真和隐私问题不再难以解决。
对于语音,真正的挑战其实是编辑问题。文字的再编辑很直观、很容易,语音如果想进行修正和再编辑,难度就高得多。如果再编辑的内容过多的话,语音结合键盘和鼠标或许是个好方式,起码会比单纯使用键盘来得快。
事实上,语音永远不会成为单一的UI交互方式。如果儿童在学校都利用语音代替打字的话,后果将难以想象。语音可能永远无法成为 显性的 UI交互方式。
但随着语音识别技术的发展,MotoX,Moto Hint 和 Google Glass的面世,语音因为速度快的优点在未来的UI交互和人机交互上一定会变得越来越重要。
我十分同意上面的最后一段话。未来的UI交互一定是多种方式相结合来进行的,而语音会是其中重要的一种交互方式。打字、手势操作、语音、眼球、脑电波等等多种交互方式的融合,或许会是未来界面设计的趋势。欢迎同样脑洞大开的同学和我一起探讨。