攻克信息抽取行业难题,搜狗知识图谱团队在NLPCC 2020上夺冠
近日,在NLPCC(全称:CCF国际自然语言处理和中文计算会议) 2020上,搜狗杭州研究院知识图谱组以最高F1值,击败多只国内外顶尖科研机构的参赛队伍,荣获Auto Information Extraction(信息抽取)任务组冠军。
攻克行业难题,搜狗知识图谱团队实力夺冠
NLPCC是CCF TCCI(中国计算机学会,中文信息技术专委)的年度学术会议,专注于自然语言处理(NLP)和中文计算(CC)领域,不仅是国内首个NLP领域的国际会议,也是全球范围内代表NLP领域顶尖水平的国际会议之一。NLPCC会议设置技术竞赛单元,每年一届,吸引来自全球各地的顶尖科研机构参赛竞逐。此次在“信息抽取”任务组夺冠,体现了搜狗在该技术领域的行业领先地位。
当前正处于一个信息爆炸的社会,网络上的信息更是呈现指数增长,这无疑增加了我们获取有效信息和知识的难度。在此背景下,帮助人们从自然语言文本中,获取特定信息,以及信息之间的相互关系,并将海量内容自动分类、提取和重构的“信息抽取”技术应运而生。通过信息抽取之后,关键信息将会以一定的结构展示,一目了然。
作为冠军队伍,搜狗知识图谱团队展现了强大的AI技术实力,通过采用Bert+CRF模型,并在模型上加入了标签路径限制 Incomplete Annotations Training(不完全标注训练)、 Self-training(自训练)等多种技术策略,攻克了在未提供大量有标注的人工语料,而只提供不完全的实体词典和大量无标注文本,以及少量有标注集合的情况下抽取高精度模型的行业难题,最终在本次竞赛任务中脱颖而出,赢得冠军。值得注意的是,搜狗将知识图谱能力不仅用于此。在和搜狗同传3.0的结合中,利用知识图谱进行领域内知识扩展,形成整个演讲相关知识网络,提高了识别和翻译效果。此外,在搜狗搜索中基于知识图谱的问答学习也广泛得到了运用,有效提升了信息获取效率。
信息抽取技术更成熟,推动人工智能应用迈向新台阶
不难预见,伴随着搜狗团队对这一行业难题的攻克,信息抽取技术也将打开更加广阔的应用前景。更重要的是,信息抽取作为构建知识图谱的关键步骤,此技术难题的攻克,也意味着知识图谱的发展将迈上新台阶。
知识图谱作为人工智能发展的一个重要基石,最大的价值是让机器有了认知能力,可以帮助我们更好地从客观世界中去挖掘、获取和沉淀知识。而一个高精度的知识图谱更是能够广泛应用于信息检索、问答系统、推荐系统、 金融 风控、电子商务、教育医疗、公安刑侦等领域。
特别是在搜索领域,知识图谱的应用让搜索体验完成质的飞跃。作为国内首家构建和应用知识图谱的搜索引擎,搜狗搜索早已将基于知识图谱的人工智能技术和差异化内容内置到产品中,一方面大大提升了产品体验和用户粘性,另一方面基于海量用户与机器的互动,不断从中获取数据、优化算法,使得知识图谱的构建更加完善,信息抽取技术突飞猛进。而这也正是搜狗知识图谱团队能够力压群雄,在本次信息抽取任务竞赛中拿下最高分赢得冠军的重要原因。