百度深度语音识别系统│2016年十大突破技术

百度百家 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

MIT Technology Review 中国大陆地区独家授权，未经授权严禁转载。更多精彩内容请搜索官方微信“mit-tr”，同我们一道关注即将商业化的技术创新，分享即将资本化的技术创业。

三里屯是北京最繁华的地方，这里有很多游客、KTV、酒吧和奢侈品商店。漫步在三里屯，你会看到很多人在使用最新款的智能手机，包括苹果、三星或小米。然而，仔细看，你可能会发现，他们当中的一些人往往不使用手机上的触摸屏，而是使用更高效、更直观的工具 – 也就是他们的声音。

在中国，智能手机用户不断增长，人数高达6亿9100万。其中越来越多的人开始不再经常通过滑动、轻击、以及微型键盘的方式在百度上进行搜索（百度是中国最受欢迎的搜索引擎）。中国是发展语音接口的理想市场，因为使用微型触摸屏来进行汉字输入十分麻烦。不过，随着百度在语音技术方面的不断进步，语音接口变得更为实用和有效，这使人们可以更为便利的与身边的设备进行互动。

“我发现语音技术正在逐渐成为非常值得信赖的技术，你只需单纯的、想都不用想的使用它。”百度首席科学家吴恩达（Andrew Ng）如是说，同时，他还是斯坦福大学（Stanford University）的一名副教授。“最好的技术往往是看不见的，随着语音识别变得更值得信赖，我希望它可以融入到我们的生活中。”

长期以来，语音接口一直是技术人员（科幻小说作家更不用提）的一个梦想。近年来，由于机器学习的迅猛进步，语音控制变得更为实用。

语音识别不再仅仅局限于一小组预设的命令，它现在甚至可以在嘈杂的环境中使用，例如北京的街道。声控虚拟助手为信息搜索带来一种简单的方法，即通过你的声音来查找信息、播放歌曲、建立购物清单，例如苹果的Siri、微软的Cortana、在大多数智能手机上捆绑的谷歌软件、亚马逊的Alexa。这些系统并非完美无缺，它们有时会误听和误解命令，会产生滑稽的结果，但是它们的性能正在稳步提高，这让我们看到了一个美妙的未来，那就是我们可以无需花费很多精力来学习每个新设备的新型接口。

百度正在不断取得骄人的进步，尤其是在语音识别的准确性方面，它拥有进一步发展语音接口的能力。成立于2000年的百度，是中国对谷歌公司（已被中国政府屏蔽）的正面挑战，它在中国的搜索引擎市场中占据主导地位，市场份额达70%。同时，百度公司已经衍生出了多种其他服务，涉及到音乐、电影流媒体、银行、保险等各个领域。

在中国，一个更高效的移动接口将为人们带来巨大帮助，那就是智能手机。相比于台式机或笔记本电脑，智能手机更为常见，但是在浏览网页、发送信息以及完成其他任务时，智能手机较慢的反应速度却是令人感到痛苦和沮丧的。

中国有成千上万的汉字，虽然人们可以通过拼音系统按照发音利用拉丁字母生成汉字，但是很多人（特别是年龄在50岁以上的人）不了解该系统。同时，中国人普遍使用一些类似于微信的通讯应用软件来完成各种各样的工作，例如在餐馆支付餐费。但是，中国有许多贫困地区，识字水平仍然很低，互联网在这些地区有着更大的可以产生较大的社会和经济效应的机会。

“这是挑战，也是机遇，” 吴恩达如是说，他因为在斯坦福大学的人工智能和机器人技术方面的贡献，被评选为为2008年度麻省理工科技评论35位35岁以下的创新者（TR35）之一。“对于很多习惯于使用台式电脑的人来说，与其让他们学习手机的新功能，不如从一开始就让他们学习移动设备的最佳适用方法。”

吴恩达认为，可能很快就可以在各种设备上通过使用语音来相互交流。例如，如果仅仅通过语音便能够向机器人或家用电器发送命令，那么你就可以更轻松地进行操作。该公司在北京总部和硅谷的工厂设有研究小组，致力于不断提高语音识别的准确性，使计算机更好地分析语句的含义。

在过去几十年里，麻省理工学院的一位高级研究员-- 吉姆·格拉斯（Jim Glass）一直致力于语音技术的研究，他认为这可能是发展语音控制的最好时机。“语音已经成为了我们社会发展的一个转折点，”他说。“根据我的经验来看，当人们可以与设备交谈，而不是通过远程控制来实现任务命令时，他们会非常愿意这样做。”

去年十一月是百度语音技术发展过程中的一个重要里程碑，它宣布其硅谷实验室已经开发出了一个强大的新型语音识别引擎，被称为深度语音识别系统（Deep Speech 2）。它包含了一个非常大的、 “深”的神经网络，它学习了单词和短语的关联声音，引入了数以百万计的转录语音。Deep Speech 2在口语识别的准确度方面十分惊人。事实上，研究人员发现，有时它在识别汉语语音片段方面，要比人为识别更加准确。

百度的进步令人感到惊喜，因为普通话在发音方面十分复杂，并且音调不同，词和词意就不同。Deep Speech 2另一个引人注目的原因是，在加利福尼亚实验室研究这项技术的人员中，几乎没有人讲普通话、粤语、或其他任何中国方言。该引擎基本上是一个通用的语音系统，如果输入足够多的示例，它同样可以进行英语的语音识别。

目前，百度搜索引擎听到的大部分声音命令都是比较简单的查询 -- 例如，关于明天的天气或污染程度。对于这些问题的语音识别，该系统通常是非常准确的。然而，越来越多的用户开始问更加复杂的问题。面对这些情况，该公司在去年推出了自己的语音助手，作为其主要的移动应用程序的一部分，被称为度秘（DuEr）。度秘可以帮助用户查询电影放映时间、或者是帮助用户在一家餐厅订位。

百度的最大挑战是使其人工智能系统，更为智能地理解和回应更加复杂的口语短语。最终，百度希望度秘可以进行有意义的来回对话，将变化的信息加入到讨论内容中。为了实现这个目标，百度北京公司的一个研究小组正在努力提升口译用户进行查询所使用的系统。包括使用百度已应用于语音识别的神经网络技术，但也需要其他的技巧。百度已经聘请了一个团队来分析发送至度秘的查询内容，并纠正相关错误，从而不断提升该系统，使其越来越好用。

“未来，我希望我们能够与所有的设备交谈，让它们了解我们在说什么，” 吴恩达说。“我希望有一天，下一代人会感到困惑，为何我们在2016年对微波炉打招呼时，它会无礼地坐在那里，对你说的话毫无反应。”

更多精彩内容请关注官方微信公众号：MIT-TR