AI 同传翻车,实际上却是人类的恐惧
给 AI 偶尔泼泼冷水,绝对是件好事。
十几个小时之前,一位现实职业是同传(将外语快速转化为英文)、中名叫 "Bell Wang" 的用户,在知乎上直接以 "科大讯飞,你的 AI 同传操(qi)作(zha)能更风骚一点吗" 为题,揭露了一部分科大讯飞在会议同传上的操作:
科大讯飞自己的英文转写(将语音变成文字)对于日本嘉宾的识别完全不佳;
科大讯飞没有选择自己的英文转写内容来直接翻译,而是直接将女同传的中文结果直接转写在屏幕上;
科大讯飞也将男同传重新整理的 " 标准英语 " 记录了下来,不仅转写成为了英文文字,同时还最终将这些文字以及机器发音的方式,配到了整个活动的回顾当中。
科大讯飞在整个活动只标注了 "AI 智能翻译 " 的字眼,并没有任何提及人工介入的表示。
一石激起千层浪,关于科大讯飞的这种操作,很快就在同传圈子里激起了 " 巨浪 ",基本都以讨伐为主题。
一位业者向虎嗅透露,在很多同传人的眼里:"AI 的确很可能终将取代我们的职业,但在 AI 真正全面超越人类之前,他们还希望争取一下。"
这看起来只是科大讯飞,AI 同传行业自己的事,但放大来看,这就是 AI 在具体职业上不断取代人类,人类不断反抗的一个小片段。这样的小片段,未来同样发生在我们每一个人身上。
AI 同传的确 " 不太行 "
通常来说,AI 想要成功主要看三要素:数据、计算力、算法。后两者在近年的 "AI 浪潮 " 中,得到了高速的发展,也让真正的 " 门槛 " 变成了数据。
就好比 AI 已经彻底 " 打败 " 人类的围棋,后者就可以算是最规整的数据了——棋盘上只有 361 个位置可以下,也只有黑白两种棋子。更不要提人类上千年来保留的数以千万计数的棋谱。在 AlphaGo 最后超越人类那一步时,甚至还开始通过自我对弈来生成全新的数据。
翻译其实也是一个拥有很多 " 优质数据 " 的内容——因为世界上很多的文学作品,都有不同语种的译本。更不要提在线翻译服务中海量的使用和反馈记录了。所以文本翻译这件事,也算是 AI 最早有所进展的领域了。
但同传并不只是翻译,更准确地说是 " 转写 + 翻译 "。相比格式规范,字母、单词书写方式都一样的实体内容,英语的口语发音实际上要复杂的多。
以科大讯飞这次为例,演讲嘉宾是一位名叫 Toshio Fukuda 的日本科学院院士。而日式英语,一直都是很 " 酸爽 " 的存在。虎嗅也找来了一小段这位日本院士的英语祝福。
您目前设备暂不支持播放
从 11 秒开始纯正的日式英语,大家可以多听几遍尝试着理解下内容
这位 Toshio Fukuda 教授的 " 日式英语 " 真的很纯正,因为一般日本人都是直接用日语的 " 片假名 " 来学习外语的发音,你甚至可以说它一半属于日语。
例如知乎用户 " 端木异 " 举的另外一个例子—— preparation,日本人念为 " 霹雳啪啦颂 "。
而事实上,英语这种国际通用语言,在结合各国的口音之后,已经衍生出了一大堆变化。感兴趣的话,可以参考哔哩哔哩上的一段67 种英语口音汇总视频。不仅日式英语,印度、俄罗斯等地区的英语也颇具特色。大家完全可以自己挡住字幕来理解一下内容。
至于科大讯飞自己的英语转写能力,想要检验也很容易,科大讯飞持股 55% 的 " 讯飞听见 ",就提供了上传然后转写中英文的能力。虎嗅也找来了一段创新工场创始人李开复的 TED 演讲,转写除了其中的一部分内容。
转写的结果还是比较令人满意的,14 分钟的音频只花了 3 分钟转写,总计费 4.89 元
总结来说,一是 " 同传 " 目前仍然是 AI 力所不及的一项任务,二是科大讯飞在较为标准的英语转写、翻译中,其实还是做出了一定的成绩的。
科大讯飞怎么看 "AI+ 人工 "?
加入用 " 同传 + 翻车 +AI" 作为关键词搜索,轻松就能搜到 50 多万条记录。
而据虎嗅了解,其他国内会议 AI 同传服务商,虽然没有像讯飞这样直接 " 人机结合 ",但在实际操作中也有专门派人盯翻译结果,甚至是在翻译效果不佳时刷新页面的操作套路。(随时清空大屏幕上不好的翻译结果)
而在今天负面爆发之后,科大讯飞方面也给出了自己的解释:
科大讯飞向 2018 创新与新兴产业发展国际会议提供会议转写服务,但考虑到大会专业技术背景,以及参会者来自不同国家、不同口音等情况,主办方专门配备了专职同传译员。科大讯飞应主办方要求仅需提供语音识别技术,直接转写译员翻译结果并在会场大屏呈现,同时合成语音供线上直播用户理解,避免收听不畅。
个别同传译员对于科大讯飞的误解,我们认为仅仅是对会议服务方面的分工沟通了解不清;目前我们已经委托会议主办方进行沟通,希望尽快消除误解;自面世以来,科大讯飞的讯飞听见智能会议系统等转写工具已经服务过众多重要会议,其中就包括 2017 全国两会、2018 年 4 月博鳌亚洲论坛、2018 世界人工智能大会等,服务质量颇受好评。
19 号当天的主会场上,科大讯飞董事长刘庆峰在演讲中还特别提到了讯飞机器翻译人机耦合的模式:9 月 17 日世界人工智能大会开幕当天,十几个发言嘉宾中有三位嘉宾的演讲用的是人机耦合(的机器翻译模式),大屏幕只显示一种语言,剩下的嘉宾演讲采用的是完全机器自动的转写,没有人工参与。
随着 AI 技术快速发展,我们能够理解人工智能施于行业和个人的紧张焦虑情绪;但科大讯飞发展 AI 无意于替代任何职业和岗位,我们也多次强调 " 人机耦合 " 共同进步的立场和产品追求。
算是进一步对现场的情况作了更详细的说明,还重复提及了科大讯飞早前提出的 " 人机耦合 " 概念。在去年科大讯飞官方公众号的一篇题为《拒绝神化 人工智能技术需踏实前行》(2017 年 6 月 29 日,阅读量 34216、点赞 196)的推送中,还写上了这样的表态:
机器翻译已经取得非常大的进步,在衣食住行等常用生活用语上的中英翻译可以达到大学六级的水平,能够帮助人们在一些场景处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的 " 信、达、雅 " 还存在很大的差距。
讯飞一直所努力的,是希望通过语音转写和翻译技术帮助同传提高工作效率、减少失误,形成人机耦合的同传新模式,并不是去替代同声传译。
结合我们上文对于 " 同传 " 难度的分析,讯飞这段表述还是很合理的。
那么问题到底出在什么地方呢?从知乎用户 "Bell Wang" 的描述中来看,讯飞没有明确当场说出自己的 AI 智能同传业务中,存在真人的工作成果,或许才是最大的原因。
更深层次的,是随着 AI 发展,已经对部分人类的职业产生了冲击的事实。
每个人,都应该提前想想怎么应对 AI
还是回到科大讯飞这个 " 人机耦合 " 的例子来看,假如只看最终的系统效率,科大讯飞似乎说的在理。拿同传来说,AI 能够完成绝大部分英语比较好、口音不重的转写和翻译任务。而真人只需要应对日式英语、俄式英语这样更棘手的任务。
从同传业者的反馈来看,我们还是能清晰体会到他们对于 AI 的敌意。
当然,这也是再正常不过的,要成为一个优秀的同传业者,你需要数年的学习,以及不断的业务经验积累。而对于 AI 来说,一旦集中资源训练出了一个 " 神经网络 ",剩下的事情无非就是把这个 " 神经网络 " 复制,和添加更多硬件算力。
但同时,同传在可预期的时间内(十数年)又不能达成完全超越人类的能力(目前时效已经超越了,但是质量还差很远)。最终形成了一个极度 " 尴尬 " 的境地—— AI 和人工各有所长, 经济 和模式趋势 " 逼迫 " 两者必须合作。
在合作的同时,人类或许很难进一步提升自我,但 AI 却会进一步成长、逼近。机器对此自然不会带有情感,但人类却会面对低等级的劳动力不断被取代的 " 压迫感 "。
所以不夸张地说,我们是时候都提前想想自己怎么和 AI 一起工作下去了。
【来源:虎嗅APP】