人工智能干翻棋王，干不过人工转录？至少在语音识别上，AI还差的很远

创业邦 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

在当今科技公司时不时就拿出新式日常神奇产品的时代，一个似乎一直得不到解决问题，就是长段的转录。当然，对文档的语音识别问题已经被Nuance公司的声龙（Dragon）软件攻克了。我们的手机和智能家居设备也能够听懂复杂的指令——真得感谢自主神经网络之类的21世纪奇迹啊！然而，人类实际交谈中大段语块的准确翻译问题，即使是今天最先进的软件也无力解决。

若能解决，必然会开拓口述历史的新篇章，让快速阅读者大量摄取播客内容变得更容易，令全世界的记者手握改变世界的恩赐便捷，解放用于甜蜜生活的宝贵时间。YouTube音频视频的文本化搜索将不再是梦，研究人员的梦想将成为现实。或许，对另一些人来说，也会是反乌托邦时代的开端，将人类拖入新形式的文字全景监狱。（其实，随着美泰公司能与小朋友对话的语音识别“你好芭比（ Hello Barbie）”娃娃的诞生，反乌托邦世界或许已经出现了。）研究人员们说，实用性转录只是个时间问题，虽然这个时间到底多长尚未可知……

人类实际交谈中大段语块的准确转录问题，即使是今天最先进的软件也无力解决。

加州大学伯克利分校国际计算机研究所音频和多媒体实验室主任杰拉德·弗里德兰（Gerald Friedland）说：“我们以前常笑言：根据询问对象的不同，语音识别问题要么已经解决，要么根本是无解问题。而真相是：在无解与已解两个极端之间摇曳。”关于语者无关的自然人类语言转录的未来，人们给出答案的不同，恰恰表明教授们的笑谈正好落入“因为真实所以好笑”的范畴。

黄学东，微软高级科学家，主持微软牛津计划（Project Oxford），为新兴语音识别创业者提供公开API。

他说道：“如果人工转录电话里的对话，错误率在4%左右。如果将IBM、谷歌、微软连同其他最好的语音识别系统结合起来，错误率也能达到惊人的8%左右。”他还估测现有商用转录系统的错误率可能接近12%，并承认“或许不如人类，但已经是语音识别领域能做到的最好了，不过是人工的两倍错误率而已。”

但是，黄学东很快补充道，这一错误率只有跟5年前相比才是令人惊异的表现。而谈到这里，他明显开始激动起来了。

黄学东从事语音识别已有30余年，自80年代早期即在清华大学开启了他的语音识别研究之路，然后加入卡耐基·梅隆大学罗杰·瑞迪（Raj Reddy）领导的开拓性语音识别实验室，又于1995年入主语音识别技术研究团队。“我们一直有一个能用自然语言与计算机交谈的梦想。”他说。他与瑞迪和声龙系统的吉姆·贝克（Jim Baker）合著，在《计算机协会通讯》2014年1月刊上发表了一篇题为《历史视角看语音识别》的论文。

“10年前，语音识别的错误率高达80%！如今，我们将错误率从80%之高降到了仅有8%！如果我们在未来两三年内一直保持这种态势，奇迹一定会发生。预测一直是件吃力不讨好的难事，但基于历史数据，追踪领域内记录，群策群力，未来两到三年内，我认为我们有可能做到用普通手机达到与人工水平相当的语音转录能力。”

卡尔·凯斯（Carl Case），百度机器学习团队研究科学家，专攻百度自有的语音识别系统——深度语音（Deep Speech）。

凯斯说：“Deep Speech在英语和汉语的现代语音系统中取得了非常好的进展。但我仍然认为‘特定环境特定人员适用’和‘任何环境任何人员可用’之间还有许多工作要做。比如说，在相对嘈杂的电话交流环境中也能毫无障碍地理解对方。”凯斯和他的团队已经在高速奔驰的车中大开音乐的环境下，以及其他恶劣条件下进行了测试。与微软的同行做法一致，他们也发布了自己的公开API，部分挂靠在科学的名义下，部分则是因为更多用户使用，系统会变得更好。

言语经济

对自由职业者，以及其他想要转录而又支付不起每分钟1美元的传统转录员人工费的人士来说，解决方案是存在的。然而，现有解决方案都不完美。程序员安迪·拜奥（《连线》杂志兼职撰稿人）曾写了个脚本将采访音频分割成1分钟一段的小块，并将这些音频块上传到亚马逊的土耳其机器人（Mechanical Turk）任务外包平台，把音频转录任务分给几个人去做。这种做法能省钱，但还是有大量的准备和善后工作要做。（Casting Words似乎也以类似的技术搭建了转录商业模型，可惜每分钟费用又回到了1美元左右。）在更容易操作的众包界面方面，还有分享经济时代的产物TranscribeMe网站，转录工作由一小支响应公司“将休闲时间变现”号召的手工转录员承担。

其实，谷歌文档（Google Docs）就内置有免费的语音转录工具，实验性质的。在计算机上播放录音，系统就会尽最大努力在谷歌文档中显示合适的文本。测试了5段Skype录制的电话采访后，只有一份说得非常慢且清晰的音频能被认为是转录称了可识别的文本，错误率勉强在15%左右。那些想要转录播客内容的人，估计只有祈祷好运了。

在当前可用的转录技术无法处理的多声音或背景音混乱的情况下，像Nuance的声龙自然说（Dragon Naturally Speaking：同样源自卡耐基·梅隆大学瑞迪的实验室）这样的可靠软件便显得在经过训练的单声音方面尤其出众了。戴维·拜伦（David Byron），《语音技术》杂志总编。他推荐了一种称为“鹦鹉学舌”的技术：实时听取录音并对着话筒复述一遍，供软件转录。这能省去一些敲击录入，但远达不到即时的效果，而且依然需要采访者重温他们最笨拙的采访片段。

言语障碍

有个人十分怀疑长段转录技术能马上实现。他就是罗杰·齐默曼（Roger Zimmerman），当前唯一一家提供商用自动长段转录应用的公司——3Play Media的研究和开发主管。通过多家供应商（保密）提供的API组合，3Play的原始转录正确率平均在80%左右——有时候高些，有时候低些，而且在发送给客户前还会启用人工转录员进行校对。“语音识别技术远达不到人类的水准。”齐默曼说，“而且，很多很多年都赶不上，我猜，至少几十年内是追不上人类的。”

齐默曼从上世纪80年代就职麻省理工学院（MIT）分支机构语音处理公司（Voice Processing Corporation）时起，就一直从事语音技术的研究。他说：“人类才不会像念课文一样说话。我们会犹豫，会修正，会重复，会达到根本不按自然语言规律来的程度，语言模型根本不适用在人类口语上。这是当前建立在人工智能基础之上的系统中较弱的组件。已有的声学建模不过是面向信号处理的，且是精心规划的，这些新的深度神经网络，在解码声学信号时知道自己在做什么，但它们并不真正理解语言模型需要做什么才能模拟人类语言过程。它们在用数值计算来处理一个至今没能真正解决的更高水准的人工智能难题。”

不过，3Play顾问，MIT口语系统小组负责人，高级研究科学家吉姆·格拉斯（Jim Glass）认为：“语音识别也没有那么那么难。事实上，该技术早都在那儿了。这个问题的正确考虑方式，应该是问问你自己能接收多高的错误率。因此，如果你能快速浏览一遍转录稿，再跳回到音频进行验证，那你可能会愿意忍受一定量的错误。该技术今天已经可以做到这种程度了。所需的，不过是某些人下决心让这项技术服务于人类而已。”

“根据经验，语音技术的部分问题，在于公司企业有没有找到用它赚钱的方式。如今倒是有工具包可供愿意尝试这一新技术的开发者使用。但我不知道公司企业到底有没有想出赚钱良方了。”格拉斯说。

进一步讨论

像谷歌语音（Google Voice）这样的商用转录服务中还应加入的一个组件，就是被称为“两方分类”的语者无关系统，能够区分谁正在讲话，讲话内容又是什么。一个人自说自话是一码事，两人互动交谈就是完全不同的另一码事了。不过，至少在科学研究范畴，这一问题部分已解决。都有一个专门的领域来研究它了——“富转录”。2012年，美国电气和电子工程师学会（IEEE）在其期刊《音频、语音和语言处理》（Transactions on Audio, Speech, and Language Processing）中，专门拿出一期登载“富转录新前沿”论文。

“根据经验，语音技术的部分问题，在于公司企业有没有找到用它赚钱的方式。我不知道他们到底找到没有。”——吉姆·格拉斯，MIT高级研究科学家

参与了美国国家标准与技术研究所（NIST）测试的非营利性组织ICSI有个分类项目，其负责人杰拉德·弗里德兰说：“在相对清晰的电话线上，98%的时间里语音识别技术能识别出说话者的语音。通过进行会议记录器项目（Meeting Recorder Project）来测试组记录情况的ICSI证实：一旦麦克风不再是手机提供的那种近距离类型，语音识别错误率就会激增到15%到100%之间。弗里德兰还指出，有待解决的问题包括，当说话人不再使用新闻播报似的相对清晰的语言，进入到当今很多研究人员都会用的大段长句模式，语音识别系统该如何保证错误率不飙升。

他说：“如果你把手机放桌上，试图记录下所有说过的话并转录成文字，你将遭遇到所有这些问题：新词汇，鸡尾酒会嘈杂问题，常规噪音，语音重叠，含糊不清等等。有咳嗽，有大笑，有叫喊，有窃窃私语。太多了。”在分类研究中有两种类型的话音频谱常会引发混乱导致测试失败——儿童和老人的。

“想想所有这些景象综合在一起是个什么惨况。我认为这一切表明了，像人类一样完美的语音识别器在相当长一段时间内是不会出现的。我们这一代人是别想看到了。”

不过，这番话也不应被理解为我们就没有生活在语音技术的黄金时代。本月，弗里德兰帮助启动了Kickstarter筹资的语音识别器/语音合成器MOVI，供开源电子原型平台Arduino在未接入云的情况下使用。“不用联网，不用接入云就能进行语音识别。能搞定几百句话，具适应能力。”弗里德兰由此表达了对索尼、苹果、谷歌、微软，以及其他所有得把语音发送到云端才能处理的公司的嘲笑。“所有这一切不过是利用了人们觉得语音识别难到不得不在云端才能处理的错觉。如果你让说话者对着计算机讲，那我们就可以认为这个问题已经解决了。”

目前为止，大多数转录初创公司似乎主要都是从授权谷歌的API开始的。但该领域和市场对所有层级的创新公司都是开放的，伴随着当一个项目成功时会引起的奇奇怪怪的未知社会变革。（翻译：nana，编辑：picar）

本文被转载2次

首发媒体

| 转发媒体