百度开发出深度语音识别系统 Deep Speech
今年 5 月,当人工智能专家吴恩达(Andrew Ng)加盟百度,担任首席科学家时,他对自己的团队可能开发的项目守口如瓶。但现在,百度突然向外界揭晓了这位前谷歌研究员,也是斯坦福大学教授的最新研究成果。
吴恩达及 10 名百度研究团队成员表示,他们已经开发出一种更为准确的语音识别系统——百度 Deep Speech。吴恩达表示,以语音识别系统准确率标准衡量,百度 Deep Speech 系统要强于谷歌和苹果等对手的系统。
百度 Deep Speech 在噪音环境中(比如汽车内和人群之中)的表现更为突出。吴恩达表示,在噪音环境下,测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API,Wit.AI,微软 Bing Speech 以及苹果 Dictation 低 10% 多。
跟其他语音识别系统一样,百度 Deep Speech 基于一种被称之为「深度学习」(Deep Learning)的人工智能技术。该软件能够以一种非常原始形式来模仿人大脑新皮层中的神经活动,因此深度学习系统就能够识别出数字形式的声音、图片等数据。在接受采访时,吴恩达表示,第一代深度学习语言识别正接近极限。
百度研究团队收集了 9600 个人长达 7000 小时语音,这些语音大多发生在安静的环境下。然后该团队使用了一种被称之为「叠加」(superposition)的物理学原理,在这些语音样本中增加了 15 类噪音。这样,他们将这项语音样本扩容成一个 10 万小时的数据。然后,百度研究人员让系统在噪音中识别语音。
吴恩达表示,百度 Deep Speech 要比目前的语音识别系统简单的多,他们使用了一系列模块,这些模块能够分析音素和其他语音元素。通常情况下,音素的识别需要人工设计模块,并依靠一种名为「隐马尔可夫模型」(Hidden Markov Models)统计概率系统,该系统需要大量的人力来调整模型噪音和语音变异。百度系统则使用深度学习算法来替代这些模型,这一算法基于递归神经网络,因此使得语音识别系统变得更为简单。
不过,真正让这项系统正常运行的背后「功臣」是百度超强新计算机系统,该系统使用很多图像处理器 GPU。GPU 通常应用在笔记本电脑中用于加速图形处理。而在百度语音识别系统中,GPU 可以让语音识别模型运行速度变得更快、更「经济」,该系统运行速度大概是吴恩达在斯坦福大学和谷歌期间所开发系统运行速度的 40 倍。
吴恩达表示:「百度语音识别系统要比其他基于 GPU 系统更为全面。我们正进入 Speech 2.0 时代,现在才是个开始。」
吴恩达并未透露百度何时会将这项语音识别技术整合到百度搜索和其他服务中。不过,外界猜测百度可能会在明年某个时候将 Deep Speech 技术整合到百度 Cool Box 小服务中。
来源: 搜狐IT
标签: 百度 语音识别