微软35天两破纪录:语音识别转录要抢速记饭碗?
(原标题:微软人工智能35天两破纪录:语音识别转录要抢速记饭碗?)
人工智能中的语音识别,有可能要威胁到速记这个职业了。
35天时间里,微软人工智能与研究部门的一个研究团队,将其语音识别系统的词错率(WER)提高了两次,达到了人类专业速记员水平。
当地时间10月18日,微软人工智能与研究部门的研究员和工程师发表了一篇论文《Achieving Human Parity in Conversational Speech Recognition》。论文表明,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至5.9%,首次达成与人类专业速记员持平,并且要优于绝大多数人的表现。同时,也刷新了自己的一个月前创造的6.3%的记录。
词错率5.9%是什么概念?在行业标准Switchboard语音识别任务测试中,人类对照组(由专业速记员组成)将对话语音转录成文字,目前有记录的最低词错率就是5.9%,这就意味着微软的语音识别系统的语音识别能力已经高于世界上绝大多数人,而与人类专业高手持平,创造了一项新的世界纪录。
微软首席语音科学家黄学东是这一研究的参与者之一,他在接受媒体采访时说:“在对话语音识别中,我们已经实现了和人类同等的水平,这是一个历史性的突破,意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。并且,我们团队花了不到一年时间就实现了这个目标,这远远超出大家的期望。”
在微软公布论文前一周,IBM在旧金山举办的国际语音交流和技术大会Interspeech上, 宣称他们取得了6.6% 的词错率。20年前,最好的研究系统的词错率是 43%。
“要是在五年前,我是绝对不敢相信我们可以实现这个目标的。”微软人工智能与研究部门的微软全球执行副总裁沈向洋博士说。
未来,微软有望利用这一语音识别系统增强自己的消费和企业产品。比如像Xbox这样的消费娱乐设备、即时语音-文本速录辅助工具及Cortana这样的个人数字助理。
虽然已经达到了人类专业水平,但这并不意味着微软的语音识别系统能完美地识别每一个词汇。微软语音和对话研究组负责人Geoffrey Zweig举例说,计算机将“have”误听为“is”、将“a”误听为“the”的错误率,和人类从同样对话中出现误听的错误率是一样的。
此外,计算机虽然能识别、转录,但要真正做到像人类一样理解语音、语言,还有很长的路要走。Zweig说,研究者正在努力确保语音识别能在更真实的生活环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或是在高速路上驾驶的时候。“下一个前沿是从识别走向理解。”Zweig说。