前沿 | MIT研发语音关联的图像识别系统，一次破解所有语言

搜狐科技 • 8年前扫码分享

选自MIT

机器之心编译

参与：Jane W、李泽南

将录音语音与图像相关联的系统可以达到完全自动语音识别。MIT 研究人员研发了一种新的训练语音识别系统的方法，它不依赖于转录抄本（tranion）。相反，这个系统的工作方式是分析图像间的关联和图像的语言描述，而这些语言描述是在大量的音频记录中捕获的。点击阅读原文查看论文。

　　语音识别系统，如手机上将语音转换为文本的软件，通常是机器学习的产物。计算机通过研究数以百万的音频文件和它们的转录，学习得到音频的声学特征与词语类型的对应关系。

　　但目前转录是一项昂贵、费时的工作，因此语音识别的研究只限于少数经济发达国家的语言。

在本周的神经信息处理系统会议（Neural Information Processing Systems conference）上，MIT 计算机科学与人工智能实验室（CSAIL）的研究人员提出了一种新的方法来训练语音识别系统，使其不依赖于转录。相反，这个系统的工作方式是分析图像间的关联和图像的语言描述，而这些语言描述是在大量的音频记录中捕获的。该系统会学习录音中的声学特征与图像特性之间的对应关系。

　　「该研究的目标是让机器学习语言的方式更像人类，」CSAIL 的高级研究员 Jim Glass 说，他也是阐述此系统的论文的合著者。「当前用来训练语音识别的方法是完全的有监督学习。一段声音会被标记为对应的意思。这种被标记的数据量是非常大的。」

「我们已经取得了巨大进步――我们有了 Siri 和 Google assistant――但是对语音标注是昂贵的，因此它们大多用于世界主要语言。世界上有 7000 种语言，我认为只有不到 2％具有自动语音识别（ASR）的能力，我们可能无暇解决其它语言的语音识别问题。因此，如果你在思考技术怎样造福整个社会，那么思考为了改变现状我们可以做什么也是很有趣的。我们多年来一直在探索的方法是怎样在减少监督的情况下实现机器学习。」Glass 说道。

与 Glass 合作论文的有第一作者 David Harwath，MIT 电气工程和计算机科学（EECS）研究生，以及 EECS 教授 Antonio Torralba。

　　 视觉语义

　　论文中描述的系统类型不同于传统的将语音与标签文本对应的系统; 相反，它将语音与一组主题相关的图像关联起来。这种关联可以作为其它系统的基础。

　　例如，如果一段语音与特定类别的图像相关联，并且图像具有与其相关联的文本标签，则可以找到这段语音可能的转录，而所有环节都不需要人工参与。类似，一组具有各种语言文本标签的图像可以为自动翻译提供解决方法。

相反，与类似内容的图像集（如「暴风雨」和「云」）所相关的标签文本词语可以被推断为具有相关含义。因为从某种意义上该系统在学习词的意义――与它们相关联的图像――而不仅仅是它们的声音，所以它比标准语音识别系统具有更广泛的潜在应用。

　　为了测试该系统，研究人员使用了数据大小为 1000 的图像集，每一张图像带有一段相关的语音描述。研究人员可以将其中的一段语音传入系统，并让系统返回 10 张最符合的图像。这一个 10 张图像的集合能以 31% 的概率含有一张正确的图像。

「我一直在强调我们正在像婴儿一样学步，未来仍然有很长的路要走，」Glass 说。「但是这是一个振奋人心的开始。」

研究人员从海量数据库中取得图像来训练该系统，这个数据库是由 Torralba；CSAIL 的首席研究员 Aude Oliva；以及他们的学生建造的。他们在亚马逊 Mechanical Turk 众包网站上雇人使用语音描述图像，这些语音可以是任何脑海里蹦出的短语，大概持续 10 到 20 秒。

作为研究方法的初步论证，这种裁剪的数据对于保证预测结果是很必要的。但是该研究的最终目的是使用数字视频来训练系统，最大程度的减少人工参与。「自然而然地，我认为它可以发展到完全使用视频，」Glass 说。

融合形态

为了建立这种系统，研究人员使用了神经网络，一种模仿大脑结构的机器学习系统。神经网络由多个处理节点组成，每个节点像单个神经元一样，处理节点仅能够进行非常简单的计算，但是它们在密集网络中彼此连接。需要处理的数据被输送到网络的输入节点，节点进行一步处理并且将其传递到其它节点，再由下一个节点进一步处理，这一过程在神经网络中会不断继续。当神经网络被数据集训练时，它不断地修改由其节点执行的操作流程，以便改进其在特定任务上的性能。

研究人员的神经网络被分为两个单独的网络：一个将图像作为输入；另一个采用频谱图，代表音频信号作为幅度随时间变化的分量频率。每个网络的顶层的输出是 1024 维向量――1024 个数字的序列。

网络中的最终节点采用两个向量的点积。也就是说，它将向量中的对应项相乘在一起，并将它们全部相加以产生单个输出。在训练期间，当音频信号对应于图像时，网络必须尝试使点积最大化，并且当音频信号不对应时使网络输出最小化。

　　研究人员系统的每个谱图可以识别点积峰。在实验中，这些峰值可靠地挑选出了解释图像的词语标签――例如给棒球投手的照片标记「棒球」，或为草地图像标记「草地」和「场地」。

在目前的研究中，研究人员正在继续完善该系统，使它可以挑选出单个词的谱图并且仅识别与它们相对应的图像的那些区域。

「一个婴儿在学会形容周遭环境的过程中，大部分需要处理的信息可能都来自于视觉，」台湾大学电机工程和资讯工程系教授李琳山说道。「今天，机器已经开始模仿这样的学习过程了。这项研究是这一方向最早的探索，令人印象深刻。」

「也许更令人兴奋的是，我们能以此探究深层神经网络可以学到多少，」芝加哥大学丰田技术学院助理教授 Karen Livescu 说道。「研究人员在这方面的工作越多，我们从大数据中挖掘出的潜力就越大。我们一直难以标记体量巨大的数据集，所以这项研究备受瞩目，Harwath 等人可以让系统从未标记的数据集中学习。我对此非常期待，想看看他们能走多远。」

下面是相关研究论文

摘要：人类在学会读写之前就可以说话了，为什么计算机不能同样如此？在本研究中，我们提出了一个深层神经网络模型，能够使用未经转录的音频训练数据进行基本的口语语言学习，其唯一的监督来自于上下文相关的图像形式。我们描述了由12万多个语音音频标记的图像数据集，并评估了我们的模型在图像搜索和注释任务的表现。我们同时提供了一些可视化结果，以证明我们的模型是在学习从字幕谱图中识别有意义的单词。

　　 原文链接：http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206

　　 ?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn