MIT开发了什么新方法来训练语音识别系统?
研究人员开发出了新型的语音识别系统,该系统不依赖于音标。相反,他们的系统分析图像与这些图像的口头描述之间的联系,大量捕获音频。然后,系统会学习哪些声学特性的录音与其图像特性相关联。
语音识别系统,比如在智能手机上将语音转换为文本,一般都是基于机器学习的结果。计算机会熟读成百上千份音频文件和它们的音标,并由此学会了对应于输入词的声学特性。
但是,录制音频是非常昂贵的,并且非常耗时,这限制了语音识别系统只能在那些富裕国家的语言中开展。
在本周的NIPS(Neural Information Processing Systems)大会上,来自 麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种不依赖于音标的新方法来训练语音识别系统。 相反,他们的系统分析图像和口头描述之间的关系,捕获了大量音频。然后,系统会学习哪些声学特性的录音与其图像特性相关。
“这项工作的目的就是试图让机器学习能够更像人类那样的方式。” CSAIL高级研究员Jim Glass如此说道,他同样也是该新系统的论文的联合作者。“目前人类用来训练语音识别还是非常监督式的。这样做是为了得到大量的数据。”
“我们虽然取得了很大突破,比如像Siri和谷歌,但是获得语义标注还是非常昂贵的,因此人们就逐渐只关注那些世界上主流的语言。全世界有7000种语言,我认为只有不到2%的语言可以实现ASR(自动语音识别),所以没有人会去重视剩余的那些了。所以,如果你试图开始关注技术如何为更大范围内的社会价值产生效益,那么你就会发现我们很有必要来改变现状。 我们这些年一直尝试关注少监督式机器学习。 ”
本篇论文的第一作者是David Harwath与Antonio Torralba,前者是麻省理工学院的电气工程和计算机科学的研究生,后者是该系的教授。
视觉语义
这篇最新的论文中提到的这个版本的系统与书写在纸张上的文字没什么关系,反而是与主题相关的图像语音组有很大关系。但是,该相关性可以作为其他的基础。
举例而言,如果,一种话语与一类特殊图像相关,该图像又有与其相关的文字词组,那么我们很有可能就能够找到该话语的音标,而无需人工干预。同样,一类不同语言中的相关文本的图像为自动翻译提供了一种方法。
相反地,那些与图像集相似的文字,比如说“风暴”和“云”,可以推断出相关的含义。因为 系统从某种意义上可以学习词语的含义――图像与它们相关――而不是仅仅学习他们的声音,它比一般标准的语音识别系统具有更广泛的应用场合。
为了测试该系统,研究人员使用了1000个图像的数据库,每一个图像都有一个与之相关的自由形式的语言描述。研究人员给他们的系统提供其中一个录音,该系统会反馈与之最匹配的10张图像,那么该10张系列图像中一次得到正确图像的概率是31%。
“我总是强调,现在我们还只是像婴儿那样蹒跚学步,我们还有很长的路要走。”Glass说道。“但是,起点是令人兴奋的。”
研究员通过一个庞大的数据库来训练他们的系统,该数据库由麻省理工CSAIL的首席科学家奥利瓦和安东尼·托拉尔巴,以及他们的学生建成。他们通过亚马逊的众包网站(Mechanical Turk)上筹集大众来用语言描述这些图像,想到什么就说什么,时间大约10到20秒。
为了初步论证研究人员的方法,这种定制的数据对于确保良好的结果是十分有必要的。但是, 最终的目的是使用数字视频来训练该系统,尽可能减少人工干预。
模式融合
为了建立他们的系统,研究人员使用了神经网络,机器学习系统以尽可能地模仿大脑的结构。神经系统由处理节点组成的,如单个神经元,每一个只能承载非常简单的计算能力,但相互之间通过密集的网络彼此链接。
数据被提供给这个网络的输入节点,然后修改并提供给其他节点,然后再修改并提供给其他节点,如此循环。当一个神经网络被开始训练,它就会不断修改操作,以便改善特定任务的性能。
实际上, 科研人员的网络有两个分割的网络组成:一个以图像作为输入,另一个则将声谱图作为输入,随着时间的推移表达信号振幅的变化。 每个网络最上层的输出是一个1024维向量的网络――一个包含1024个数字的数列。
该网络的最后一个节点是两个向量的点积,也就是说,它将相应向量中的元素相乘,然后相加,最后成为一个数字。在训练过程中,该网络必须尝试在音频信号与图像相符时使得点积最大化,在不匹配时点积最小化。
对于每一个科研人员研究的声谱,它可以识别出点积的峰值极点。在试验中,这些极点对于挑选出那些精确的图像标签非常可信。 比如说,“棒球”这个词,系统会选择一个棒球投手正在投球,或者“草”和“地”这两个字,系统会选择一片草地。
目前正在进展的过程中,科研人员已经改进了系统, 以便该系统能够挑选出单个词语的声谱,并且识别出刚好对应于这些词语的区域。
( 素材来源整理自麻省理工学院 )