里程碑！谷歌语音识别出错率降低30%以上

腾讯科技 • 8年前扫码分享

【腾讯科技编者按】据国外媒体报道称，谷歌 ( 微博 )高级研究员杰夫-迪恩（Jeff Dean）当地时间周三在于加州圣克拉拉召开的人工智能前沿峰会（AI Frontiers Conference）上表示，谷歌自2012年以来已经将语音识别的错误率降低了30%以上，这对于如今AI当道的科技领域来说可谓意义非凡。

在这儿，迪恩所说的语音识别错误率是指“谷歌将一个词语从语音转录成为文字时的错误率”。迪恩表示，谷歌自2012年以来已经成功将这一错误率降低了30%以上。与此同时，一名谷歌发言人也同科技媒体VentureBeat证实了这一数据的准确性。

迪恩表示，这一语音识别错误率的下降得益于神经网络的应用。目前，包括谷歌和其他企业均在深度学习中使用了这一神经网络技术，研究人员通过使用大量数据对神经网络进行训练。比如通过大量的语音片段练习，然后让他们基于已经获悉的内容对新数据作出推断。

消息称，谷歌最早在2012年，也就是Android“果冻豆”系统发布的时候首次将神经网络技术应用于语音识别领域。具体来说就是，当用户向Android“果冻豆”系统的语音识别软件说话时，声音频谱会被分解并发送到谷歌全球服务器“大军”中的八台电脑，随后由负责开发这个项目的谷歌研究科学家文森特-凡毫克（VincentVanhoucke）及其团队开发的“神经网络”模型进行处理。

凡毫克在当时就表示，与此前版本的Android系统相比，“果冻豆”语音识别系统的误差率要低25%左右，而这能让用户更加愿意使用语音命令。

在此之后，尽管这一技术的发展影响着越来越多的谷歌产品，但该公司却鲜有公开讨论自己在语音识别技术上取得的进展。2015年，谷歌CEO桑德加-皮查伊(SundarPichai)曾表示“谷歌语音识别的错误率约为8%”。

苹果 Siri团队资深总监、前微软语音识别项目高管亚历克斯-阿赛洛（Alex Acero）在去年8月接受Backchannel主编史蒂芬-列维（StevenLevy）采访时透露，Siri在所有语言中的错误率降低了两倍，甚至在许多情况下超过了两倍。此外，微软也在去年9月份表示，旗下语音识别技术的出错率已经降至6.3%，打破了 IBM 超级电脑沃森之前保持6.9%的出错率纪录。

事实上，为了能在这场技术革命中处于领先位置，包括亚马逊、苹果、谷歌和IBM在内的科技企业都已经开始面向消费者提供语音识别技术。比如，苹果不久前在Siri中添加了第三方整合功能，允许它与第三方应用通讯，这意味着用户将可以利用Siri服务直接呼叫Uber专车。

然而，如果要想成为消费者最主要的计算平台，语音助手仍需迎来进一步改进。凯鹏华盈分析师、被巴伦杂志冠以“互联网女王”称号的玛丽-米克尔（Mary Meeker）就表示，语音识别的准确率必须达到99%左右才有可能成为最有效的计算输入形式。（综合/汤姆）

推荐：人工智能汹涌而来，未来已变！关注“AI世代”微信号（tencentAI），关注未来。

里程碑！谷歌语音识别出错率降低30%以上