火山翻译技术论文获国际“最佳”,开源推动行业发展
8月5日,ACL 2021正式颁发“最佳论文”奖项,字节跳动AI Lab的机器翻译技术论文在3350篇论文投稿中脱颖而出,当选今年度“最佳论文”。ACL大会由国际计算语言学协会主办,被视为自然语言处理与计算语言学领域最高级别的学术会议。多年来,自然语言处理被誉为“人工智能皇冠上的明珠”,在机器翻译、搜索、信息流、输入法等领域都有着广泛的应用。
1. 机器翻译新突破
自1949年信息论先驱Warren Weaver发表翻译备忘录、提出机器翻译的可能性以来,机器翻译已经过了几十年的发展迭代,如今进入到了一个可以运用“神经网络”和加入了“深度学习技术”的AI翻译时代。不可否认的是,全球化的 商业 巨头已经走在了最前端。
以AI为内核的混合智能技术也正在成为开启 经济 新周期的密钥之一。
这绝不是理论上的先知先觉。洞察美国 科技 巨头——如谷歌、Facebook等公司,我们会清醒发现,它们都在进入一个密集的AI基础设施 投资 新周期。这样的行为,或许会在中短期对它们的财务报表形成一定扰动,但相比于未来的收益,不值一提。
字节跳动作为 互联网 新贵,机器翻译是其AI能力发展程度的重要体现之一。该公司业务覆盖150个国家和地区,员工也遍布全球各地。在其11万名员工跨越语言障碍、顺畅交流协作的背后,字节跳动AI Lab火山翻译团队多年打磨的机器翻译模型的支持必不可少。
基于文本翻译、语音翻译、图像翻译、语种识别等技术能力,火山翻译推出了一系列形态多样的产品与服务,包括机器翻译云服务、智能视频翻译、智能同传等。此外,火山翻译还支持垂直领域的快速模型定制,能够满足不同群体和不同行业的翻译需求。
除了在抖音、今日头条等产品上的使用,火山翻译团队也早已将机器翻译技术应用于办公场景中。以在线办公软件飞书为例,不仅邮件、文档和表格可以开启译文或双语对照模式,IM消息也可以做到即时翻译,会议也同样可以享受同声传译的快感,包括目标语言字幕式翻译。这类机器翻译技术的应用,使得来自于不同国家的参会者可以说着自己的母语更自如地进行交流,而不再囿于语言障碍产生误解。
据火山翻译负责人王明轩介绍,内部很多大热的软件中都可以看到火山翻译的身影。无论是在泛娱乐端还是工具端的应用,火山翻译多语言互译的速度和准确度都经受住了考验。
如今,火山翻译已经上线了56门语种之间的互译,支持的语向翻译多达3080个。据透露,今年内火山翻译上线语种将超过150个。值得一提的是,火山翻译不需要英语等通用语作为中间语,可以支持任意两个语种之间的互译,大大提高了翻译速度。
今年内,火山翻译上线语种将超过150个
以火山同传为例,在半年时间内,火山同传就已经在多场会议与直播中崭露头角,包括北京智源大会、第四届首席技术官领袖峰会、日本艺术家村上隆首场中国直播等。不仅为不同场景提供定制化同传字幕服务方案,同时采用人工保障方案实时校准,保证字幕精准性和流畅性,为高端会议的进行提供了保障。
火山翻译的前沿技术也获得了学术界认可,今年共有9篇论文被ACL 2021接收,就是由AI Lab的NLP基础研究团队和火山翻译团队合作实现的。由字节跳动AI Lab提出的一种新的词表学习方案VOLT,更是获得了年度唯一的“最佳论文”奖项。这是ACL59年历史上,华人科学家团队第二次赢得最高荣誉。
王明轩透露,火山翻译现在每天都要处理数亿次翻译请求,可以说每一个上线语种都经过了实际用户的检验,“因此,稳定和高质量的翻译服务是我们必须提供的保障。”
持续不断地为用户提供高水平翻译服务靠的不是运气,而是火山翻译背后强大的技术支撑和工程能力,以及字节跳动开放体系的联动支持。
2. 技术底色支撑应用落地
火山翻译之所以能在近年快速落地,实现商业价值,离不开其浓厚的技术基底。
微软技术学院院士黄学东曾表示,一家公司构建的翻译系统效果如何,主要取决于两点:一是数据是否够全、够多;二是算法是否足够好。
海量数据是AI自我迭代不可或缺的基础,由于背靠字节全球化布局,火山翻译可以获得更好的AI训练结果,并从AI赋能中率先获益。
同时,得益于字节跳动多年机器学习和自然语言处理领域的深耕,其AI团队拥有百余项技术发明专利,在机器翻译技术上更是独创了multilingual Random Aligned Substitution Pre-training (mRASP)多语言预训练算法,把几十种语言语料融合在一起训练,获得的模型在具体语对上微调取得了44个语对的业界最佳性能。
据悉,目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效果不佳。针对这个问题,火山翻译团队近期提出了更简洁优雅的大规模多语言预训练新范式mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,旨在充分利用语料,学习更好的语言表示,并由此提升多语言翻译性能。
这一多语言预训练新范式运用在机器翻译时,就像是一个精通两三门语言的人类学者,在学习另一门语言时,速度就会更快。“人类在多语言学习过程中会自发去总结语言学习中比较抽象的共性,再去学习新语言的特性。因此想要提升个人语言学习能力,往往需要学习更多的语言。”火山翻译就将这一规律植入神经网络翻译中,创造出了一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
火山翻译多语言预训练新范式源于人类语言学习规律
机器翻译模型实际是基于源语言生成目标语言的条件概率模型,实验结果表明mRASP2在有监督、无监督、零资源的场景下均取得翻译效果的提升。其中有监督场景平均提升1.98 BLEU(bilingual evaluation understudy,翻译精确度),无监督场景平均提升14.13 BLEU,零资源场景平均提升10.26 BLEU。
这意味着,无论是语料库丰富的通用语言,还是训练数据稀缺的小语种,机器都可以通过这一新范式,把翻译能力迁移到不同语言上,使不同语言之间的信息互相利用,完成学习迭代。
随着语种数量增加,翻译任务增多,对机器自然语言处理任务的能力水平也提出了新的要求。
早在2019年12月,火山翻译团队曾经开源过一款Transformer类模型推理加速引擎LightSeq。作为业界第一款支持多种模型和解码方法的推理加速引擎,LightSeq的推理速度快于其它同类软件,更是远远超过了TensorFlow和PyTorch。
Transformer模型结构图(以机器翻译为例)
最近,LightSeq发布了最新版本,引入了引擎方面的重大更新——支持了Transformer全流程训练加速,在不同的批处理大小下相比主流训练库最高可加速3倍多,是业界目前最快的推理和训练引擎,可以把推理速度提升10倍。
训练速度快,指的是模型更迭比较快;推理速度快,就是指用户体验到的翻译速度更快。至此从训练到推理部署的整个过程都已被LightSeq2.0打通。
从用户端来看,LightSeq2.0可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多文本生成场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业运营服务成本。
“以翻译任务为例,LightSeq2.0相比于TensorFlow最多可以达到14倍加速。同时领先目前其他开源序列推理引擎,例如最多可比Faster Transformer快1.4倍。”王明轩介绍,训练英法翻译模型,pytorch 之类的框架需要一周,火山翻译只需要2天多;而翻译一句话,16层的神经网络业界普遍需要600多ms,LightSeq2.0只需要80ms。
总结起来,在各类场景中至关重要的火山翻译产品,都离不开技术团队的精心打磨。核心是大规模多语言预训练新范式mRASP2和推理和训练引擎LightSeq2.0的结合,保证了语种的多样性以及互译的精确度,辅之以并行文本生成能力Glancing Transformer 模型(GLAT)、端对端语音翻译工具包NeurST等多项机器翻译前沿技术,使火山翻译多次得到市场及学术界的认可。
在2020年国际机器翻译大赛WMT2020上,火山翻译团队一共获得七项冠军:在39支参赛队伍的激烈竞争中,火山翻译以显著优势在「中文-英语」的关键语向翻译项目竞赛上拿下了世界冠军;此外,火山翻译还拿下了「德语-英语」、「德语-法语」、「英语-高棉语」和「英语-普什图语」语向机器翻译项目的冠军,还斩获了平行语料过滤对齐项目普什图语和高棉语的两项第一。
今年的WMT2021大赛,火山翻译通过强大的并行文本生成能力GLAT,在受限资源赛道夺得德语到英语方向翻译比赛自动评价第一。
WMT是由ACL举办的世界顶级机器翻译比赛,主要宗旨是评估机器翻译最新发展水平,传播通用测试数据集和公共训练数据,改进机器翻译评估评测方法。德英语向是该赛事竞争最激烈的大语种项目之一。自2006年以来,WMT已连续举办了16届,参赛者来自世界各地的顶级企业、高校和科研机构,包括微软、脸书、腾讯、阿里巴巴、百度、华为等,比赛结果被广泛认可为机器翻译技术的风向标。
此次也是GLAT在国际大赛的首次亮相,就成功击败了从左向右逐词翻译的“自回归模型”技术,打破后者在机器翻译领域的绝对统治地位。
自左向右生成(左)和并行生成(右)
相比于自回归式翻译系统自左向右的逐词输出,并行翻译系统则采用了更新颖的并行生成技术,在翻译的过程中同时输出所有的词,从而可以获得数倍的翻译加速。“并行翻译”是由机器同步输出所有的词,不依赖之前的输出词,翻译速度将提高数十倍,甚至“句子越长,提升速度越明显”。
同样,为了进一步提升语音翻译的准确度和翻译速度,火山翻译利用前述技术思路,将预训练模型应用在语音同传中。
传统基于级联的语音翻译系统的缺点之一就是自动语音识别转录错误频发,而火山翻译推出的端到端语音翻译工具包NeurST,利用预处理音频数据集的简单方法,绕过了转录步骤。不仅减少了滞后时间提升了翻译速度,也使开发人员可以腾出时间从事更高级的语音翻译工作。
3. 技术开源,推动行业发展
火山翻译团队由分布在全球各地的科学家和工程师组成,平均年龄不到30岁,均有各大科研机构和大型企业任职经历,但负责人表示,火山翻译的成就很大程度仍归功于字节跳动整个公司在技术端的开放。
“字节跳动是一个开放的架构,很多技术都会在内部共享,比如字节人工智能实验室(AI Lab)的前沿机器翻译技术”,王明轩介绍,AI Lab为公司今天现有的产品和业务提供核心技术支持和服务。
在WMT2021上大放异彩的并行文本生成能力GLAT,就是火山翻译团队和AI Lab其他研究团队合作的技术产出。其实,AI Lab已将很多AI技术应用到实际产品中,用户相对比较熟悉的可能是在抖音、今日头条、西瓜等App中的应用,火山翻译也是字节跳动AI技术在产品研发层面的成功落地案例:通过内部技术研发、产品经理、产品运营等专业团队形成一条“前沿技术+产品研发+运营反馈”的闭环。
字节跳动开放的架构,成就了内部技术的高复用率
除了支持公司产品和内部办公以外,火山翻译将技术和服务能力集成于字节跳动旗下的ToB技术服务平台火山引擎中,将火山同传、火山翻译API、火山翻译Studio等在内的一系列矩阵产品开放给更多行业的企业用户们。
好的技术需要匹配好的工程能力来实现落地。有赖于火山引擎更加接近客户端的反馈,火山翻译的技术、工程团队也可以打磨出更符合市场需求的解决方案。比如在去年12月12日,日本艺术家村上隆首场中国直播,吸引了百万用户的关注,这场跨国直播的成功也离不开火山翻译提供的高质量实时智能同传字幕。
影院级字幕翻译在直播中保证了用户体验
为了给用户更专注的体验,免受翻译字幕跳动带来的视觉干扰,火山同传根据应用场景做出定向技术优化,创新性地推出了“影院级字幕”方案。据介绍,在村上隆的直播中,火山翻译团队除了采用前沿的神经网络机器翻译技术进行模型训练外,还针对直播场景引入了领域适应技术,将村上隆以往的访谈和演讲数据用于优化算法,并对口语规范化、专业术语定制都进行了特殊优化处理,确保最终呈现的字幕能够简洁、精准。
借力于开放的技术体系,火山翻译也选择用更开放的态度推动产业发展。
“开源是推动科技进步的重要力量,我们受益于开源,更需要为开源社区做出贡献”,王明轩表示,字节跳动已经把包括LightSeq系列项目在内的多种技术开源,与各界共享技术成果,希望能帮助广大科研人员节约时间成本,为学术界和产业界激发创造力提供有力支持。
4. 构建B端增长曲线
在技术团队的研发和实际案例的锻炼后,火山翻译逐渐有了较为全面的覆盖能力和场景适应性,对于产品的市场化方向,团队也有了更清晰的认知。
“我们一直致力于更加行业化、个性化地解决用户的需求,为B端客户创造更大的价值。”王明轩表示,B端的营收更加稳定,市场更广阔,在未来2到3年内是火山翻译主要的覆盖目标。
面向普通用户,火山翻译也推出了AR智能翻译眼镜以及火山翻译浏览器版本,让用户体验最新技术成果。“但C端更多是辅助作用,主要目标市场还是B端。”
选择B端市场也是字节跳动的下一增长曲线所在。火山引擎各类技术的开放,意味着字节构建B端业务的步伐正在加快,服务体系也愈加成熟。
近年来,互联网科技巨头们的商业化路径逐渐清晰,先是聚集规模流量变现(比如广告),接下来是挖掘技术的价值(大数据、云计算等更底层的基础设施)。这条路是亚马逊,阿里巴巴,腾讯等前辈们走过的,在这个马太效应依旧明显的ToB市场里,年轻的字节跳动必须锚定优势才能进行差异化竞争。
火山引擎定位自己为“企业智能增长服务”,而增长,正是商业世界所渴求的,也是字节跳动在短短几年内创造的神话。
在现代工业物流体系下,商业增长不可能离开信息的获取。在过去的几年中,机器翻译让国际贸易增加了10%,而现今世界仍有上千种语言未能实现本地化,被称为“长尾语言”,本地化意味着可以与说同一种语言的人群进行更广泛的交流。一个很好的例子是,在非洲,斯瓦希里语已成为一种普遍的交流用语,实现斯瓦希里语的本地化意味着1600万以其为母语的人和8200万以其为第二语言的非洲人建立起了沟通。
当然,获取新信息的需求对于每个地区的人们都存在,“全球现存有5000多种语言,400多种文字,AI加持下的机器翻译是打破这种信息障碍,使不同语言的人们可以进行交流,了解对方的理想方式。”王明轩表示,除了商业意义之外,火山翻译更希望能够让大众体会到机器翻译给日常生活带来的便利,真正做到消除语言障碍,实现无国界沟通。(来源:电脑报)