搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别

雷锋网 • 5年前扫码分享

在近期举办的语音顶会 ICASSP 2019上，搜狗联合清华天工研究院发表了一篇有意思的论文：基于模态注意力的端到端音视觉语音识别。

简单来说，即引入「基于模态注意力的端到端」方法，有机地融合了语音和唇部动作信息，显著提高了嘈杂环境中语音识别的效果。

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别 论文链接： https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

我们知道，安静环境下语音识别的正确率目前已经可以达到98%以上，商业应用基本没太大问题。但嘈杂环境（例如会厅、地铁环境）中语音识别却难以获得理想的效果。

以0dB的噪声环境（噪声与信号强度相同）为例，DeepMind和牛津大学在CVPR2017上联合发表的研究中，字符错误率（CER）为29.8%；近两年来，其他研究在效果上也并没有得到显著地改善。而搜狗的这篇文章无论在方法上还是性能上都非常值得关注。

值得注意的是，这篇文章也是搜狗在唇语系列研究中的新成果。2017年搜狗在第四届乌镇世界互联网大会上公开展示了远高于谷歌的唇语识别技术，引起业界的广泛关注。在当时“智东西”的采访中，搜狗语音交互中心技术总监陈伟就已经表示了将探索唇语与语音识别融合（而非采用麦克风阵列降噪）来提升在嘈杂环境中语音识别性能的想法。这篇论文算是一个回应。

一、创新点

任何创新都是站在前人的肩膀上。

想想我们人类。当你听不清对方讲话时，会很自然地盯紧讲话者的嘴巴，这在一定程度上会帮助你明白讲话者的意思，实质上这便是利用了讲话者唇部动作所携带的信息（也即唇语）。

在嘈杂环境下计算机该如何识别说话内容呢？正如人类一样，解决方案是在语音基础上加入视觉信息，通过视、听模态信息的融合来增强语音识别的效果，这被称为 AVSR（Automatic Visual Speech Recognition）。

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别 利用唇部动作所携带的信息增强语音识别的效果

这里面有两个难题。首先，语音和视频本质上完全不同的数据流，它们的原始帧速率通常是不一样的，如何将两种模态信息融合在一起则是一件具有挑战性的问题。

在深度学习以前，传统的方法通常是通过上采样或者下采样将两者变成相同帧速率直接拼接。

这样做的缺点是：（1）会造成信息损失；（2）会使听觉特征在模型训练过程中起主导作用，造成模型训练难收敛，视觉信息对听觉信息的提升有限；（3）由于原始特征的长度较长，直接拼接的方法容易带来更大的计算量。

在深度学习时代， Noda等人在2015年提出了特征融合（而非之前数据拼接）的方式，即首先利用CNN将视觉特征提取出来，然后与语音特征进行融合成单一的特征。目前，这已成为AVSR的主流思路。

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别 来源：Noda, K., Yamaguchi, Y., Nakadai, K. et al. Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7

但两种特征如何融合才更有效呢？我们知道，唇语识别的准确率在大多数情况下是远低于语音识别的，不恰当的融合甚至可能会拉低语音识别原本的效果。

DeepMind和牛津大学的研究人员在 2017年发表的工作（WLAS）中采用的思路是：利用注意力编码器解码器框架，将相对应的声音和唇部上下文向量进行拼接后输入到输出层进行预测，如下图所示：

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别 来源：Joon Son Chung, Andrew W Senior, Oriol Vinyals, and An- drew Zisserman, “ Lip reading sentences in the wild. ,” in CVPR, 2017, pp. 3444–3453.

ADAPT中心的George等人（arXiv:1809.01728v3，AV_align）的思路是希望利用获取的唇部特征对音频特征进行补充修正，然后再用一个基于注意力的解码器对这个修正后的融合音视觉信息的特征进行解码：

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别 来源：George Sterpu, Christian Saam, and Naomi Harte, “ Attention- based audio-visual fusion for robust automatic speech recognition ,” in Proceedings of the 2018 on International Conference on Multimodal Interaction. ACM, 2018, pp. 111–115.

综合考虑这两种方法会发现，它们本质的不同不过是在何处进行融合而已。前者在解码器内部进行融合，后者在编码器的输出层采用注意力找到与当前听觉向量相关的视觉向量后，与听觉向量进行拼接。

另外一个难题是，在不同模态的特征融合过程中，该如何显式赋予恰当的权重以获得更加鲁棒的融合信息。

我们知道，在噪声不同、说话人发音清晰程度不同的情况下，听觉和视觉所携带信息的比重是不固定的。因此，最好的方式自然应当是能够根据模态的信息含量来显式、自适应地赋予权重。

在上述两项研究中都没有显式的对两种模态信息赋予权重向量，模态之间的重要程度是在后续的网络连接权重中学习得到的。搜狗的这篇文章主要解决的正是这个问题。

不同于前面两者的是，研究人员周盼与搜狗研究员杨文文等共同设计了一个基于模态重要程度的注意力机制（模态注意力），使模型能够自适应调整模态的权重来融合音视觉特征。

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别

详细来说，即，在第t个解码步骤中，由解码器状态分别与音频编码器和视觉编码器进行注意力得出相应的声学context vector 和视觉context vector 后，不是将这两个模态的信息进行拼接，而是基于模态注意力，将二者进行融合，得到融合的context vector ，进行输出的预测。

这种在声音和视觉注意力之后，再增加一个模态注意力进行融合的方法有以下好处：

Context vector 已经包含了与当前输出相关的信息，比在原始特征进行融合更加清晰有效；
模态注意力得到的模态权重用来对二者进行融合，反应了模型认为不同模态在当前输出时的相对重要程度；
模态间的融合系数可以依赖数据进行自动学习调整；
在每一个解码步骤进行融合，相比在原始特征融合时，少了很多计算量。

二、训练及结果

根据以上模型，他们在150h电视新闻类音视觉数据上进行了训练。实验表明，这种模态注意力方法在0dB噪声情况下，可以对LAS的纯语音识别取得相对36%的错误率下降。而且优于其他的音视觉结合方法（WLAS，AV_align）。不同系统在不同信噪比情形下的识别错误率（CER）如下表：

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别

注：

LAS，Listen, Attend and Spell，即纯语音识别；
WAS，Watch, Attend and Spell，即纯唇语识别，显然它不受噪声影响；
WLAS，Watch, Listen, Attend and Spell，即DeepMind与剑桥大学联合提出的模型；
AV_align，即George等人提出的模型；
MD_ATT，基于模态注意力的AVSR系统
MD_ATT_MC，在MD_ATT基础上增加Multi-condition数据

文章中也进一步分析了在不同噪声下，模型对两个不同模态间的依赖。随着噪声的提升，模型在融合音视觉时，对视觉信息的依赖比例在逐渐提升。

搜狗ICASSP论文：基于模态注意力的端到端音视觉语音识别

三、意义

这篇文章的意义在于提出了一个模态注意力的机制，动态地融合了音视觉模态特征，并在实验上显著提高了语音识别的准确性和鲁棒性。

值得注意的是，这种方法具有普遍性，完全可以迁移到任何种类的多模态信息融合当中。另一方面，搜狗的技术毕竟是要用在产品当中的。业内在语音降噪的问题上大多采用麦克风阵列的方式，搜狗则在尝试使用音视觉结合的方法，利用多模态识别技术来提升噪声鲁棒性。

据陈伟表示，这项技术的性能已经达到了可以商用的水平，目前两个可能的落地场景包括：1）语音输入场景，通过调用摄像头功能来提升嘈杂环境中语音识别效果，未来搜狗输入法会上线该能力；2）落地到远场人机交互系统，特别提到了车载交互。据陈伟介绍，搜狗目前正在与一些车企洽谈，通过增加摄像头（而不是增加麦克风阵列）来解决车载噪声场景（如开车窗下会有极大的噪声）下的语音识别问题。

原文链接： https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

。