百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

新智元报道

作者:胡祥杰

   新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

   简历投递:j obs@aiera.com.cn

   HR 微信 13552313024

   新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

   加盟新智元,与人工智能业界领袖携手改变世界。

   【新智元导读】 12月21日,百度举行机器翻译技术开放日。本次开放日主要向外界传递的一个主题是:百度早于谷歌和微软,在一年前已经推出最近很火的基于神经网络的机器翻译(NMT)系统。

   新智元讯 2016年12月21日,百度举行机器翻译技术开放日。 百度技术委员会联席主席、自然语言技术负责人吴华博士作技术报告,她说,百度早在1年多以前就率先发布了世界上首个互联网基于神经网络的机器翻译(NMT)系统,引领机器翻译进入神经网络翻译时代。

   神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系统。今年9月,谷歌、微软等公司也相继发布NMT系统。

   NMT技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。

   据介绍,当时百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入SMT中的特征解决NMT系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩70倍便于移动用户在本地运行等。

   目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了API接口。目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译API。世界知识产权组织(WIPO)也将百度翻译API集成到官网,供用户将专利信息翻译成不同语种查询。

   不过,吴华对新智元介绍说,百度翻译现在的准确率只能说是有70分左右,离90分的准确率还有很远的距离。另外,现在整个百度翻译的商业模式是To C 的,To B业务目前还没有展开,但是以后会考虑。

   解决数据稀疏的问题

   百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

   NMT 模型近几年来的发展中一个核心问题,就是解决数据稀疏。

   在接受新智元的采访时,吴华说:

   其实不管是神经网络翻译技术,还是以前统计机器翻译技术都是基于双语语料的,比如中英的翻译是一句中文和一句完全翻译好的英文对照的,之后才能提供翻译服务。但是,并不是所有的语言之间的语料都是很充分的,英文和中文,英文和法语之间可能相对比较充分一些,但比如中文和日本、韩语就比较少。

   为了解决这个问题,百度以前基于统计翻译的时候,提出了疏轴的语言,这个方法做的比其他公司好。在NMT技术下,是借鉴和其他语种的语料优势来翻译的,当时提出这个方法的时候发表在国际会议上得到了很高的评价。

   这个技术本质上还是解决数据稀疏的问题,因为NMT这种机制可以多个语言一起学习。谷歌现在也是在这个技术上,用多个语言一起训练然后共享参数,共享参数的目标是为了借鉴其他语种语料的优势,来解决语料稀疏的翻译质量问题。今年11月份谷歌提出了Zero-shot的方法,实际上也是解决数据稀疏的问题。

   百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

   NMT 的不足

   开放日现场,记者问到,NMT和SMT(基于统计的机器翻译)的区别。吴华说,SMT不管是基于短语还是句法的,都还是在局部解码,没有看全句最优。但NMT的好处是先看整个句子的意思,然后再翻译。这个过程就会表现出来好像理解了一句话的意思,所以在选择翻译词的时候,更加符合这个句子的语意一些。这也就是为什么NMT在翻译长句的时候好一些。但NMT没有真正解决语义问题,虽然它很长一段时间都是主导。

   她说:“NMT的劣势实际也很明显,因为NMT还只不过是高级一点的模式识别的技术,所以没有真正解决语义的问题。”

与谷歌翻译的对比

   谈到谷歌翻译与百度翻译的对比。吴华认为,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。

   百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

   她说: “谷歌翻译是处在一个领先地位的,但我们的优势在于,在基于神经网络的技术上,我们是有点领先的。谷歌翻译发新闻通稿,里面也引用了我们很多之前发表的一些文章,这个大家如果关注的话可以查到。在神经网络这条线上我们是走在前面的,虽然他们在统计翻译里还是走在前面的。”

   她还补充道:“在线上的翻译系统里,我们在口语翻译上实际上是明显超越谷歌的,这一点大家可以随便去试试看看。”

新智元招聘

   职位 运营总监

职位年薪:36- 50万(工资+奖金)

工作地点:北京-海淀区

所属部门:运营部

汇报对象:COO

下属人数:2人

年龄要求:25 岁 至 35 岁

性别要求:不限

工作年限:3 年以上

语 言:英语6级(海外留学背景优先)

   职位描述

  1. 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  2. 擅长开拓市场,并与潜在客户建立良好的人际关系

  3. 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态

  4. 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  5. 带领团队完成营业额目标,并监控管理项目状况

  6. 负责公司平台运营方面的战略计划、合作计划的制定与实施

   岗位要求

  1. 大学本科以上学历,硕士优先,要求有较高英语沟通能力

  2. 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  3. 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  4. 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  5. 具备优秀的时间管理、抗压能力和多任务规划统筹执行能力

  6. 有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑

  7. 有媒体广告部、市场部,top20公关公司市场拓展部经验者优先

   新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。

随意打赏

谷歌神经翻译系统谷歌神经网络翻译谷歌神经机器翻译谷歌神经网络谷歌翻译软件谷歌神经翻译
提交建议
微信扫一扫,分享给好友吧。