腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军
美国国家标准与技术研究院(NIST)主办的2017年国际知识图谱构建大赛(Knowledge Base Population,简称KBP)结果近日揭晓,腾讯AI Lab首次参赛,斩获实体发现与链接(Entity Discovery and Linking Track,EDL)任务冠军。KBP大赛始办于2009年,是国际上影响力最大、水平最高的知识图谱领域赛事,此次夺冠体现了腾讯在知识图谱、语义理解等技术领域的强劲技术实力。
实体发现与链接任务三语总分前十位排名表(各队伍为匿名)
知识图谱是试图结构化人类知识的技术,一般通过描述实体属性以及建立实体和实体之间的关系来实现。当前,自然语言处理的很多任务都需要知识图谱的支持, 比如问答系统中的query语义理解。举个例子,如果你查询「86版西游记主演有哪些?」,要完整理解这句话,第一步先理解「西游记」这个实体及其类别,这个任务叫实体发现,就是识别出「西游记」是一部电视剧。第二步要解决实体的歧义性,因为知识图谱包含了各个版本的「西游记」,实体链接的任务就是要根据查询里的上下文,例如这里的「86版」,把「西游记」链向知识图谱中正确的那一版「西游记」,也就是1986年上映的「西游记」。
顶级国际赛事展现技术构架
深度学习构建领先语义理解模型
实体发现与链接是KBP赛事的核心任务,需要从目标文本中识别出实体,并把它们链接到已有的知识库上,具有很高的技术挑战性,任务针对中文、英文、西班牙文三种语言,腾讯获得三语实体发现与链接总分第一名,单语上的指标分别是中文和西班牙文两项第一、英文第二。比赛历来受到学术界和工业界的广泛关注,本次任务共24支队伍参加,包括 IBM 、美国卡耐基梅隆大学和美国伊利诺伊大学香槟分校等国际一流科研机构,及 阿里巴巴 、北京邮电大学和浙江大学等国内知名企业及院校。
本次比赛中,腾讯AI Lab在目前业界领先的EDL架构中引入了篇章理解模型和关联图模型。篇章理解模型采用深度学习架构,通过大规模数据的训练能够更精准的理解篇章的语义;关联图模型是将整篇文章的所有重要信息一起建模到一个图结构当中,整体求解以达到全局最优。
自建知识图谱TopBase
未来延伸到自然语言深度理解力
知识图谱是自然语言处理领域的核心技术,目前腾讯AI Lab建设了一个名叫TopBase的知识图谱,目前涵盖50多个领域如人物、音乐、影视、体育、诗词等,亿级实体,10亿级三元组,并已广泛应用到天天快报、微信看一看及微信搜索,和腾讯云小微等业务。
TopBase知识示意图
机器学习、计算机视觉、语音识别和自然语言处理是腾讯AI Lab的四大基础研究方向,在此研究基础上与腾讯业务与合作伙伴需求结合,落地到内容、游戏、社交和平台型AI四大应用上。
知识图谱所属的自然语言处理(NLP)领域,腾讯AI Lab还着重于问答、对话、文本生成、自动摘要和机器翻译方面的核心研究,并与语音识别和计算机视觉领域进行跨界应用,如同声传译和图片描述生成等技术。最终的目标是让机器更好的理解并生成文字内容,提升理解、决策和创造力,最终能与人类通过自然语言进行交流。