吴恩达:百度新开放的语音技术有潜力彻底改变人机交互
11 月 22 日,百度宣布在其语音开放平台上线三周年之际,向公众开放四项全新语音技术的接口。百度公司首席科学家吴恩达在演讲中对百度最新的语音技术进展表示满意,他简单介绍了这四项深具革命性的语音技术,即情感合成、远场方案、唤醒二期技术和长语音方案,并宣布即日起百度将这几项技术免费开放给用户和开发者共享。
百度首席科学家吴恩达
以下是百度四项开放技术的负责人对新技术的发布演讲:
语音合成
对合成技术大家有所了解,但是合成技术给大家第一印象肯定是一种比较机械的,古板的声音,只可达意不可传情。而我们要做的就是,让语音合成距离真人更接近一些,给大家带来的体验更好一些。这是合成几个模块,首先是录音、标注、建模生成,为了达到我们大数据情感合成的目的,我们对这几个模块都做了相应的创新。
首先因为我们要做一个情感合成,如果合成的声音具有情感,录制的声音必须具有情感。传统的录音是一种以新闻朗读的形式录音,有点像新闻联播,而我们的录音是自然的方式,它的录音本身就带有很丰富的情感表达。我们将「句」改变为「篇章』的形式去录,然后加上情感之后,这个语音多样性就比标准的声音多了很多。所以说传统的十个小时规模的语音音控肯定是达不到现在合成的效果,所以我们现在的音库达到了百小时的级别。这是大数据的采集,采集完之后必须经过处理才能应用到语音合成系统中。大数据的处理,人工标注的形式,一般来说一分钟的语音可能要十倍二十倍的时间标注,而我们录制更多的数据之后,比如说达到百小时级别以后,标注的时间、标注的人工的成本,如果按照之前的方式是不能接受的。
所以我们又开发了一系列的自动化处理的手段。我们开发了一个自动韵律停顿的预测,预测发言人的停顿。我们预测的停顿结果是和人标注的结果是可以对比的。接下来,就是大数据建模。这方面我们也是用传统的野码建模,到现在基于深度学习的建模。深度学习建模,对于现在的云合成有两个优点,第一点是它的建模更加精准,精准建模会使合成后的声音更加流畅,而传统的建模有不太连续的问题,导致声音听起来不太连贯。第二点,如果说传统的野码建模更多的是建模数据中的更新或者平均的效应,而深度学习建模,在表达共性的基础上对个性也有更多的建模。所以说,录出来的数据有情感,如果传统建模手段建的话,一平均以后基本上和没有情感的声音差不多。但是我们深度学习的建模就不一样,建模出来的语音特征更多情感的表达模式,这是我们在大数据建模方面作出的一些突破。
远场识别技术
跟大家分享百度云技术部在远场云语音识别的一些点。首先我们知道在百度开放平台很早开放了进场语音识别相关的功能,但是远场语音识别姗姗来迟,我们知道很多的情况下有了一个近场语音识别,能够做很多的应用。但是在一些情况下,比如说像做智能音响或者说控制一些设备之类的,你没有一个远场语音识别很难做到一个很好的解决。考虑到这些方面的需求,百度语音开放平台这方面做了很多的努力,希望为大家提供一个很好的开放远场的语音识别方面的解决方案。
我们知道远场语音识别这个任务和近场相比有明显的特点,远场语音识别有很多情况下都是和你的设备相关,你针对不同的设备,可能要采用不同的解决方案。一般情况下我们可以把这种设备分为这样三类,第一类是单通道远场识别,均匀线性阵列远场识别,均匀环形阵列远场识别。第二种情况,就是所谓均匀线阵的情况,就是四个 mic 阵列,前方 180 度可以做一个很好的远场识音,后方 180 度不会对他的语音有任何的干扰。基于这样一个场景,这样的一个设备,一个好的应用场景,比如说电视机设备前面放麦克风,或者其他设备风窒需要考虑前方 180 度这样一个语音的识别。第三种,环阵的远场识别,和现在线阵可以发现,它可能会用到更多的麦克风。有了这些设备我们做一个好的远场识别率,还需要运用到一些信号处理的技术,主要有以下四个技术,包括第一个麦克风阵列的波束形式,这个麦克风阵列波束形式。第二个就是语音增强,有了一个好的语音增强算法能够很好提高语音信号的一个信号比。第三个技术是回声消除,很多设备会自有语音播放。第四个就是声源地位,有了声源地位可以定位移动的讲话人在哪个方位,基于这个技术,语音识别模型训练,最终得到一个比较好的识别效果。
公司内部做的评测结果,我们发现对于远场的情况,不管是用单 mic 还是双 mic,还是说 4mic 线性阵列或者 8mic 环形阵列,都可以识别率达到 93-94%,所用的语音的距离都是 3-5 米的远场距离。虽然说远场里面识别效果和近场的语音识别效果还有一定距离,但是 93%、94% 这样一个准确率,对于很多运用来说,都能够满足他们的需求,而且达到很好的效果。当然了,百度云也会不断提升自己的语音的识别能力,相信远场上面能够将来做的更准的一个效果。
介绍了这么多的技术,就做一下远场语音识别的规划。分为两个,一个是设备端我们会无偿开放这个波束形成语音增强回声消除,定源定位。第二个,就是针对不同麦克风阵列结构提供最优的语音识别引擎,这里面需要指出的是,可能最后给出的一个解决方案就是,会给大家建议说,你的麦克风阵列是什么样的形态,选择什么样的不同模型。
语音唤醒
我们在今年 6 月份的时候,发布了百度唤醒 1.0,接下来我们给大家讲一讲百度云环形 2.0 一些新的特性。我先简单地讲一下语音唤醒的定义,在待机的状态下,用户通过说出一个指令的唤醒词,来唤醒设备的一个操作,就是所谓的语音唤醒。它给你的设备,给你的 App 装上了一个耳朵,然后让它能够听到你的呼唤,这是我们语音唤醒的一个定义。
百度的语音唤醒有哪些技术上的特点?首先大家知道我们支持用户自定义唤醒词,所谓用户自定义唤醒词,就是不同用户唤醒词不同。我们会对每一个用户的唤醒词进行解析,分析声学和文本上的一些特性,根据这些特性,自动的定制语音唤醒解码网络。另外我们在声学模型上也做了很多的努力,包括我们采取了很多数据,特别是 4、5 个字短的语音数据进行双学模型的训练。第三,唤醒加入了一些噪声抑制的技术,比较嘈杂的情况下唤醒也能够取得一个比较好的效果。第四,我们针对唤醒的一些特点,设计了两层解号器,很好地提高解码的准确度。那么在所有的唤醒识别完了以后,最后会加一个置信模块,对之前的结果进行判断,这个模块能够有效降低误报。另外就是低功耗的技术的一些应用,我们通过调节双向模型和解码器的特性,有效降低了唤醒的误报。你知道唤醒要一开着,这个误报是非常重要的模块。
那么通过这些技术,我们取得了哪些性能上的成果?首先我们的唤醒正确率在多个情况下,多个场景下平均值能够达到 95% 以上,另外我们的误报是 24 小时一次,在办公室环境下可以达到一天一次的这个误报。最后,是我们的功耗,我们的功耗其实是经过了很多的优化,和国内的很多竞品相比,基本上是他们功耗的三分之一左右。同时,我们也和国外的一些唤醒技术,比如说谷歌的谷歌 LO,我们唤醒技术同样优于他们,这是我们在性能上的一些进步或者说一些效果。白云唤醒 2.0,除了在性能上的提升还有新的特性。首先是唤醒加识别加指令唤醒,这两个分别是什么,我们一一给大家介绍一下。
首先说唤醒加识别,传统的唤醒,你有一个需求,假设需要四步来完成,首先说出唤醒词唤醒设备,接下来他会问你,我能帮你干什么,你说出需求,最后才能完成你唤醒的需求,那么有没有办法能够优化这个过程?这是我们的方案,我想到百度大厦,那么你说那句话的同时,我想到唤醒了你的设备,那么同样后面的设备我们会拿去识别,也就是说一句话里面既有唤醒技术,又有识别技术,是把唤醒技术和识别技术很好地结合。通过这种方式,可以比传统方式更好地一步就完成用户的需求,这是我们所谓唤醒加识别的造作。2.0 里面,我们对这个东西进行了很多的优化,相信能够提升大家对唤醒完成需求的效率。
接下来介绍指令唤醒。大家看到这些场景是生活中非常常见的自拍,打开和关闭手电筒,包括这个音乐的功能。生活中,我们需要这些操作,唤醒 1.0 发布以后,很多的开发者都联系我们说,他们 App 里面有这几个功能的需求;我们 2.0 里面对于用户的这些特定的需求进行了梳理,并且专门定制了各个方向比如说如果你再想拍照的话不用拿手按的直接指令唤醒,只要说拍照或者茄子就能够完成你的操作。同样,手电筒和音乐,音乐里面也有很多播放暂停之类的功能,这样就能够很好地完成这些特定方面的需求。这个技术开放以后就有一些问题来了,比如说有的开发者说我想同时用你两类的指令,比如说我想做一个会拍照的手电筒,他拥有拍照能力,也可以照明,我想同时用你两类 App 可以吗?第二个问题就是说,有的开发者说我想用你的这些指令唤醒词,同时我自己定制了那些指令唤醒词可不可以?就是说,指令唤醒词和用户自定义唤醒词,包括指令唤醒词之间,大家能够怎么样用他呢?我们的方案就是,自由组合。也就是说,你可以根据我们的规则,同时使用你自己定义的唤醒词和我们的指令唤醒词,同时也可以使用多类师心自用唤醒词,可以唤醒的种类和效果。
长语音解决方案
什么是长语音识别?在介绍这个概念之前,我们先来回顾一下市场上的语音识别的应用,会发现绝大部分都是短语音识别。像搜索使用语音数据关键词,像地图使用语音输入是地址,语音助手输入语音是指令,像输入法使用语音输入一两句话,一般最长不超过 60 秒。为了和这种只有一个说话人,只用一两句话就能够表达完毕的短语音识别区分开来,我们把包含一个或者多个说话人拥有相同主题的传弹语音称之为长语音。
长语音识别可以解决哪些问题?首先它提供了一种更自然更便捷的语音输入方式,用户可以持续不断地说,不再有时间的限制。我们可以用它来发微博,发邮件,写评论,写日记,医生可以用他来写病历。其次它可以承担速记员的角色,可以用做会议记录或者采访记录甚至法庭上的庭审记录。用在呼叫中心,可以做智能客服,客户的电话经过转换在客服电脑上实时显示,同时后端系统经过分析,帮助客服使用标准话术,提过服务质量,遇到产品资讯时会自动调取相关产品信息,帮助客服推荐提交成单率。视频领域可以做生成字幕和过滤关键词。
长语音识别的技术特点,首先因为长音频几分钟到几个小时,需要把长段的音频切成短的音频来识别,然后在短语音识别时由于一般只有一两句话,识别技术即使没有标点符号,也不会影响用户阅读和理解,但是在长语音识别时,如果没有标点符号识别结果的可读性会大大降低。长语音识别因为存在多人说话,需要分别识别,以便后续展示以及更深一步的语义理解。我们在长语音识别这一块做了哪些突破?首先在音频切分技术这个模块,我们使用了 LSTM 对语音进行噪声进行建模,切分准确率超过 99%;在标点符号这个模块我们借鉴了 TTS 的韵律预测算法使用深度学习来预测停顿然后利用长语音长的特性;在生成模型使用了这个说话人自适应,每个人说话时间越长它的识别效果会越好。另外长语音识别下,因为有之前的识别结果,就可以形成语境,而识别错误 60% 是错在音相同或者相近,结合这个语境我们就可以实现对识别结果的智能纠错。对于长语音识别服务,我们做了开放规划,在第一期我们即将开放单说话人通用领域,可以用来发微博写评论,接着在第二期我们计划开放多说话人通用领域,可用来做访谈介入和视频转写,在未来我们会陆续开放一些垂直领域,比如呼叫中心和电子病历。另外长语音会保持我们开放平台一贯的特性,支持用户自定义场景,支持远场。
题图来自网络