百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年
新智元报道
作者:胡祥杰
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
简历投递:j obs@aiera.com.cn
HR 微信: 13552313024
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。
加盟新智元,与人工智能业界领袖携手改变世界。
【新智元导读】 12月21日,百度举行机器翻译技术开放日。本次开放日主要向外界传递的一个主题是:百度早于谷歌和微软,在一年前已经推出最近很火的基于神经网络的机器翻译(NMT)系统。
新智元讯 2016年12月21日,百度举行机器翻译技术开放日。 百度技术委员会联席主席、自然语言技术负责人吴华博士作技术报告,她说,百度早在1年多以前就率先发布了世界上首个互联网基于神经网络的机器翻译(NMT)系统,引领机器翻译进入神经网络翻译时代。
神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系统。今年9月,谷歌、微软等公司也相继发布NMT系统。
NMT技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。
据介绍,当时百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入SMT中的特征解决NMT系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩70倍便于移动用户在本地运行等。
目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了API接口。目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译API。世界知识产权组织(WIPO)也将百度翻译API集成到官网,供用户将专利信息翻译成不同语种查询。
不过,吴华对新智元介绍说,百度翻译现在的准确率只能说是有70分左右,离90分的准确率还有很远的距离。另外,现在整个百度翻译的商业模式是To C 的,To B业务目前还没有展开,但是以后会考虑。
解决数据稀疏的问题
NMT 模型近几年来的发展中一个核心问题,就是解决数据稀疏。
在接受新智元的采访时,吴华说:
其实不管是神经网络翻译技术,还是以前统计机器翻译技术都是基于双语语料的,比如中英的翻译是一句中文和一句完全翻译好的英文对照的,之后才能提供翻译服务。但是,并不是所有的语言之间的语料都是很充分的,英文和中文,英文和法语之间可能相对比较充分一些,但比如中文和日本、韩语就比较少。
为了解决这个问题,百度以前基于统计翻译的时候,提出了疏轴的语言,这个方法做的比其他公司好。在NMT技术下,是借鉴和其他语种的语料优势来翻译的,当时提出这个方法的时候发表在国际会议上得到了很高的评价。
这个技术本质上还是解决数据稀疏的问题,因为NMT这种机制可以多个语言一起学习。谷歌现在也是在这个技术上,用多个语言一起训练然后共享参数,共享参数的目标是为了借鉴其他语种语料的优势,来解决语料稀疏的翻译质量问题。今年11月份谷歌提出了Zero-shot的方法,实际上也是解决数据稀疏的问题。
NMT 的不足
开放日现场,记者问到,NMT和SMT(基于统计的机器翻译)的区别。吴华说,SMT不管是基于短语还是句法的,都还是在局部解码,没有看全句最优。但NMT的好处是先看整个句子的意思,然后再翻译。这个过程就会表现出来好像理解了一句话的意思,所以在选择翻译词的时候,更加符合这个句子的语意一些。这也就是为什么NMT在翻译长句的时候好一些。但NMT没有真正解决语义问题,虽然它很长一段时间都是主导。
她说:“NMT的劣势实际也很明显,因为NMT还只不过是高级一点的模式识别的技术,所以没有真正解决语义的问题。”
与谷歌翻译的对比
谈到谷歌翻译与百度翻译的对比。吴华认为,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。
她说: “谷歌翻译是处在一个领先地位的,但我们的优势在于,在基于神经网络的技术上,我们是有点领先的。谷歌翻译发新闻通稿,里面也引用了我们很多之前发表的一些文章,这个大家如果关注的话可以查到。在神经网络这条线上我们是走在前面的,虽然他们在统计翻译里还是走在前面的。”
她还补充道:“在线上的翻译系统里,我们在口语翻译上实际上是明显超越谷歌的,这一点大家可以随便去试试看看。”
新智元招聘
职位 运营总监
职位年薪:36- 50万(工资+奖金)
工作地点:北京-海淀区
所属部门:运营部
汇报对象:COO
下属人数:2人
年龄要求:25 岁 至 35 岁
性别要求:不限
工作年限:3 年以上
语 言:英语6级(海外留学背景优先)
职位描述
-
负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向
-
擅长开拓市场,并与潜在客户建立良好的人际关系
-
深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态
-
主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力
-
带领团队完成营业额目标,并监控管理项目状况
-
负责公司平台运营方面的战略计划、合作计划的制定与实施
岗位要求
-
大学本科以上学历,硕士优先,要求有较高英语沟通能力
-
3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作
-
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
-
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
-
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
-
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
-
有媒体广告部、市场部,top20公关公司市场拓展部经验者优先
新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。