百度开发出深度语音识别系统称超越苹果谷歌

互联网的那点事 • 10年前扫码分享

据《福布斯》网站报道，今年5月，当人工智能专家吴恩达（Andrew Ng）加盟百度，担任这家公司首席科学家时，他对自己的团队可能开发的项目守口如瓶。但是。现在，百度突然向外界揭晓了这位前谷歌研究员，也是斯坦福大学教授的最新研究成果。 吴恩达及10名百度研究团队表示，他们已经开发出一种更为准确的语音识别系统——百度Deep Speech。

吴恩达表示，以语音识别系统准确率标准衡量，百度Deep Speech系统要强于谷歌和苹果等对手的系统。

百度Deep Speech在噪音环境中（比如汽车内和人群之中）的表现更为突出。吴恩达表示，在噪音环境下，测试显示百度Deep Speech系统的出错率要比谷歌Speech API，Wit.AI，微软Bing Speech以及苹果Dictation低10%多。

跟其他语音识别系统一样，百度Deep Speech基于一种被称之为“深度学习”（Deep Learning）的人工智能技术。该软件能够以一种非常原始形式来模仿人大脑新皮层中的神经活动，因此深度学习系统就能够识别出数字形式的声音、图片等数据。在接受采访时，吴恩达表示，第一代深度学习语言识别正接近极限。

百度研究团队收集了9600个人长达7000小时语音，这些语音大多发生在安静的环境下。然后该团队使用了一种被称之为“叠加”（ superposition ）的物理学原理，在这些语音样本中增加了15类噪音。这样，他们将这项语音样本扩容成一个10万小时的数据。然后，百度研究人员让系统在噪音中识别语音。

吴恩达表示，百度Deep Speech要比目前的语音识别系统简单的多，他们使用了一系列模块，这些模块能够分析音素和其他语音元素。通常情况下，音素的识别需要人工设计模块，并依靠一种名为“隐马尔可夫模型”（Hidden Markov Models）统计概率系统，该系统需要大量的人力来调整模型噪音和语音变异。百度系统则使用深度学习算法来替代这些模型，这一算法基于递归神经网络，因此使得语音识别系统变得更为简单。

不过，真正让这项系统正常运行的背后“功臣”是百度超强新计算机系统，该系统使用很多图像处理器GPU。GPU通常应用在笔记本电脑中用于加速图形处理。而在百度语音识别系统中，GPU可以让语音识别模型运行速度变得更快、更“经济”，该系统运行速度大概是吴恩达在斯坦福大学和谷歌期间所开发系统运行速度的40倍。

吴恩达表示：“百度语音识别系统要比其他基于GPU系统更为全面。我们正进入Speech 2.0时代，现在才是个开始。”

吴恩达并未透露百度何时会将这项语音识别技术整合到百度搜索和其他服务中。不过，外界猜测百度可能会在明年某个时候将Deep Speech技术整合到百度Cool Box小服务中。