腾讯AI Lab副主任俞栋:语音识别领域四大前沿问题亟待研究
5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。
腾讯 AI Lab 副主任俞栋博士、「LSTM 之父」Jürgen Schmidhuber、加州大学伯克利分校人工智能系统中心创始人Stuart Russell教授、中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃及Citadel 首席人工智能官邓力等多位知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。
在会上,腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋博士发表了主题为《语音识别领域的前沿研究(Frontier Research of Speech Recognition)》的演讲,探讨分享了语音识别领域的四个前沿问题。
俞栋认为,虽然语音识别在过去几十年里取得了一定进步,如今机器也已经达到甚至超过人的识别水准,但是离真正的人与机器的自由交流还有一定差距。
以下是俞栋演讲的主要内容:
语音识别是一个有着悠久历史的研究领域。在过去的几十年里,研究人员从最简单的小词汇量阅读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今,即便是在以前认为非常难的自由对话这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但是离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿又推进了一步。
如今研究的问题越来越没有环境、说话风格、口音、词汇等限定(不像以前有非常多的限制),同时这也增加了语音识别的难度,研究的前沿也从近场麦克风转向远场麦克风,两者的区别在于,在远场情况下,当人的声音传达到麦克风时,声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难,在远场麦克风就变得很明显。如果不解决这些问题,用户在很多的应用场合仍然会觉得语音识别效果欠佳。
所以今天在这样的背景下,我介绍一下最近在语音识别当中的一些前沿的研究方向。
研究方向一:更有效的序列到序列直接转换的模型。
语音识别实际上是把语音信号的序列转化为文字或词的序列,所以很多人认为要解决这个问题,找到一个行之有效、序列到序列的转换模型就可以了。
从前的绝大部分研究是通过对问题做假设,然后据此在语音信号序列到词信号之间生成若干个组件,并逐步地转换以生成词的序列。在这些假设中间有许多假设,在某些特定场合它是合理的,但是在很多真实的场景下,它又是有问题的。这种模型实质上是说,如果我们去掉可能存在问题的假设,然后借助数据驱动,就有可能找到更好的方法,使序列转换更准确。
这样做另外一个好处是整个的训练也可以变短。
更有效的序列到序列直接转换的模型目前来讲主要有两个方向:方向一:CTC模型。
CTC模型十分适合语音识别这样的问题,因为它所要求得输出序列长度比输入序列长度要短很多。CTC模型还有一个优势,传统的深度神经网络与混合模型一般来说建模量非常小,但是在CTC模型里面你可以相对自由地选择建模单元,而且在某些场景下建模单元越长、越大,你的识别效果反而会越好。
最近 谷歌 ( 微博 )有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统模型。但由于训练稳定性差,CTC模型相对于传统模型仍然更难训练。
更有效的序列到序列直接转换的模型的第二个方向是:Attention 模型
Attention 模型首先把输入序列、语音信号序列,转换成一个中间层的序列表达,在这个中间层序列表达上面,能够提供足够的信息,然后就可以基于这个信息有一个专门的、基于递归神经网络的生成模型,这个方法在机器翻译里面现在成为了主流方案,但是在语音识别里面它还是一个非常不成熟的技术,它有几个问题在里面。
问题1:只适合短语的识别,对长的句子效果比较差。
问题2:在做语音识别的时候,它的效果是相对来说非常不稳定的。
那么如何解决这些问题?目前最佳的解决方案就是把 CTC 与 Attention 结合起来,这主要是因为CTC有持续信息,可根据后面的语音信号生成词,这有助于 Attention生成更好的表达。两者结合的最终结果既比CTC、Attention各自训练效果更好,所以是一个 1+1 大于 2 的结果。
但是,即便把 CTC 与 Attention 两种模型结合起来,其效果比传统混合模型相比,依然没有太多长进。所以我们仍然需要解决一些问题。
问题一:在这样的架构下面,有没有更好的一些模型结构,或者是训练准则,能够比现有的CTC或者Attention模型更好。
问题二:当拥有的数据较少时,有没有办法建造一个结构,使得语言模型和声学模型紧密结合在一起。
问题三:如何利用各种语料的数据,整合起来训练一个更好的序列到序列转换模型。
研究方向二:鸡尾酒会问题。
人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,非常好地听懂其要关注的那个人的说话声音。现在绝大部分的语音识别系统却没有这个能力。这个问题在近场麦克风并不明显,这是因为人声的信噪比非常大,而在语音识别系统上,信噪比下降得很厉害,所以说这个问题变得非常突出,成为了一个非常关键、比较难解决的问题。
Label Permutation问题目前有两个较好的解决方案:
方案一:Deep Clustering。
方案二:Permutation invariant Training。
但是目前为止我们所用的一些信息,只用到了单麦克风的输入信息。但是我们知道麦克风阵列可以提供很多的信息,所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强其能力。第二个就是有没有办法能够找到一个更好的分离模型,因为现在大家用的还是LSTM,但是LSTM不见得是最佳模型。第三个问题是我们有没有办法利用其他的信息,能否利用这些信息来进一步提升它的性能。
研究方向三:持续预测与适应的模型。
第三个大家关注的热点是能否建造一个持续做预测系统。我们之前做了一个模型,它的好处是能够非常快地工作,根据结果来改进下一个数据的识别结果。目前由于模型比较大,所以性能上很难训练。
所以现在的问题是如何建造一个更好的模型,它能够持续地做识别。它需要的特点是什么呢?一个是它能够非常快地做Adaptation,使得下一次再做识别的时候,我们有办法把类似信息用更好的方式压缩在模型里面,所以在下一次可以很快做识别。
研究方向四:前后端联合优化。
第四个研究前沿有关远场识别以及如何做前端和后端更好的联合优化。传统来讲,前端的信号处理技术一般只用到当前状态下的语音的信号信息。而机器学习方法用到很多的训练器里学到的信息,但是很少用到当前帧的信息,它不进行数据建模,所以我们有没有办法把这两种方法比较好地融合在一起,这是目前很多研究组织发力的一个方向。
另外,我们有没有办法更好地把前端的信号处理跟后端的语音识别引擎做更好的优化。因为前端信号处理有可能丢失信息,且不可在后端恢复。所以我们有没有办法做一个自动的系统,能够比较好地分配这些信息的信号处理,使得前端可以比较少地丢失信息,从而在后端把这些信息更好地利用起来。
关于腾讯AI Lab
腾讯AI Lab于2016年四月成立,总部位于深圳。作为腾讯公司级AI实验室,AI Lab专注于基础研究和应用探索的结合,致力于提升AI决策、理解及创造能力,并为腾讯各个产品及业务提供AI技术支持。
AI Lab专注四大基础研究方向:计算机视觉、语音识别、自然语言处理和机器学习。每个领域代表一个AI基础研究方向,又能进行深层次的研究拓展。结合腾讯独有场景和业务优势提出内容、游戏、社交和平台工具型AI四大应用探索。技术在天天快报、手机QQ及天天P图等上百个产品中应用。
腾讯AI Lab深圳总部由机器学习和大数据领域专家张潼博士领导,现有50多位世界知名院校的AI科学家(90%为博士)及200多位应用工程师,聚焦四大基础研究及应用方向的结合。西雅图研究室由AI Lab副主任、语音识别及深度学习领域专家俞栋博士领导,偏向语音识别及自然语言理解两大领域的基础研究。
关于俞栋
俞栋博士是腾讯AI Lab(人工智能实验室)副主任,及美国西雅图AI实验室负责人,负责该实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。俞栋博士是语音识别与深度学习领域的资深专家,曾在相关领域出版两本专著并发表大量论文。他也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。加入腾讯前,他曾担任美国 微软 研究院语音和对话组(Speech and Dialog Group)首席研究员,并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。
俞栋博士与George Dahl 博士、邓力博士等共同研发的上下文相关深层神经网络-隐马尔科夫模型(CD-DNN-HMM)是深度学习技术在大词汇量语音识别任务上的首次成功应用。他们的这项突破性工作,获 2013年IEEE信号处理协会(IEEE SPS)最佳论文奖,引起了大词汇量语音识别研究方向的转变,极大地推动了语音识别技术的发展。俞博士曾获2013年和2016年IEEE信号处理协会最佳论文奖,现任 IEEE 语音语言处理专业委员会委员,曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。
俞栋博士拥有中国浙江大学电子工程学士学位、美国印第安纳大学计算机硕士学位、中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。