达摩院对话机器人备战双11,11种语言开撩全球剁手党
11月8日消息,由阿里巴巴达摩院最新AI技术支持的对话机器人进入双11备战模式,将在双11期间服务100多个国家和地区的用户。达摩院对话机器人阿里小蜜精通英语、法语、泰语、西班牙语、阿拉伯语等11种语言,两周就能学一门新外语。
双11是全球剁手党的节日,在阿里巴巴的AliExpress、Lazada等全球化业务平台,阿里小蜜承担了智能客服的角色,能用所在国家或地区的语言服务当地消费者。
(对话机器人用法语跟当地买家交流)
(对话机器人用阿拉伯语跟买家交流)
今年,对话机器人新学了阿拉伯语、法语和繁体中文,并且推出了马来语-英语、泰语-英语等混合语言问答功能。混语问答的情况在马来西亚等地很常见,在马来西亚客服场景中,大部分用户用英语咨询,少数用户用马来语咨询,并且常有英语、马来语混用。对话机器人不仅能同时理解这两种语言,还能理解复杂的语言混用情况,并给出相应的回答。
借助达摩院最新的Cross-lingual Learning(跨语言学习)技术,对话机器人还能掌握更多语言,包括土耳其语、乌尔都语等小语种。小语种缺乏大规模训练语料,很难通过过去的机器学习技术习得,Cross-lingual Learning能够克服资源匮乏的瓶颈。
(泰-英混语交流)
(马来语-英语混语交流)
Cross-lingual Learning是一种多语言NLP(自然语言处理)技术,它通过语言之间的知识迁移,借助中文、英文等语料资源充足的语言,帮助算法模型提升理解小语种的能力,从而快速拓展机器人的多语种支持功能。
通俗地说,语言是符号,不同的语言是不同的符号系统。想象语言所指的每个事物/知识都对应一个确定的ID,它在不同的语言中被不同的符号所代表,或者说,不同语言所用的符号映射到同一个语义空间。Cross-lingual Learning做的是帮助机器理解语言所指的ID,并借助资源丰富的语言去学习资源匮乏的语言。
基于语言之间的交叉映射关系,对机器来说,在资源匮乏的情况下,通过将多种语言混合、学习语言间的共性,反而能比学习单一语言达到更好的效果。2017年达摩院对话机器人初次在海外落地,用6个月学会了印尼语,又用6个月在智能客服岗位上达成比拟中文机器人的解决能力。而现在,博学的多语机器人新学一门语言已经缩短到两周。