Ok Google：开启谷歌的语音识别之路

雷锋网 • 11年前扫码分享

【编者按】本文作者Frederic Lardinois，原文引自 techcrunch

就像微软公司认为触摸是计算机的未来形式一样，毫无疑问谷歌认为语音才是未来的用户交互方式。事实上，月初我在山景城的时候，一个谷歌工作的朋友让我尝试着任何时候想用手机都只用语音命令。

对谷歌来说，现在所有的事情都可以通过语音来完成，说一句 “Ok Google” 或是 “Ok Glass”即可开始。自从谷歌的旗舰手机Moto X和Nexus 5升级到 Android 4.4之后，语音识别已经不需要触摸麦克风图标便可开始了。手机会一直保持倾听状态，并且能够随时与你交流。

ok-google-chrome-desktop

这个周末我去看了一次Google And The World Brain（一个关于Google书籍扫描的争议性项目的纪录片）。在纪录片里面出现的唯一人物是 Amit Singhal，Singhal是谷歌副总裁以及核心排名算法小组的领头人。纪录片中Singhal一点都没有提到Google Books，反而一直在讲《星际迷航》这部电影里的技术对他的研究有多大影响。这部片子以及朋友让我只使用语音命令手机的挑战让我对谷歌（苹果或是其他公司）关于语音识别和自然语言处理做的一系列工作有了进一步的思考。

在语音识别和苹果的 Siri 刚出来的时候，对着手机或电脑说话总是让人觉得很诡异。感觉就像是跟一个没生命的东西聊天，大部分时间它几乎听不懂你讲什么。早期的语音识别工具非常限制，要求你发音准确，确保你是用指定命令来操作的。问一下车里有语音识别的人对语音的看法便可知道其受欢迎程度（千万不要问还是旧的福特同步系统的车主，他们只会大发脾气）。

解决各种各样的复杂问题是谷歌前进的动力。我几个月前提到，谷歌的任务之一就是打造最终的私人助理。为了完成这个目标，谷歌需要有完美的语音识别系统，更关键的是背后的自然语言处理算法。

在手机和Chrome上用谷歌的语言命令能干的事真的是太多了。告诉它“给妈妈打电话”，手机就会自动拨号。语音命令可以帮你打开网页，回答复杂问题，创建约会和备忘录，转换货币，翻译单词和词组，发送邮件和文本。

在语音搜索方面，谷歌的语音识别系统可以直接语音回复答案，这是其他公司目前还不能做到的，仅仅是因为他们不能与谷歌的知识图谱相匹配。更有趣的是，这些语音命令经常让你和手机会有些小对话。

“给Alex打电话”“哪个Alex？”“Alex Wilhelm”“手机还是座机？”“手机”“给Alex拨号中”

谷歌能够做到上述这些，甚至可以识别扩展对话中的代名词真的很令人敬畏。虽然对我来说语音识别还是让我觉得很怪异，我不可能马上在公众场合使用语音识别，一个人在办公室的时候用语音识别更奇怪。

我猜想这样的迟疑会随着时间慢慢减少，就像视频会议刚出来的时候还不是显得很奇怪，但现在我们都已经习惯在Skype，FaceTime 和Google Hangouts上视频聊天了。

也许语音识别真的是未来用户交互方式。自然语言处理和所有用于谷歌语音命令搜索的技术都会形成人工智能系统的核心。

所以谷歌几个星期前收购了一家名为DeepMind的人工智能初创公司一点都不奇怪。DeepMind是一家致力于高尖端人工智能的创业公司，传闻谷歌CEO拉里·佩奇亲自负责此交易。2000年，佩奇曾说他相信“谷歌的最终目标就是人工智能。”谷歌也会向这个方向一直发展，Google X神秘实验室中的大多研究者也对人工智能很感兴趣。

我最后还是没能整天只用语音控制我的手机，不是因为语音识别不好用，而是我不想整天和手机说话。

Via： techcrunch