深兰科技夺冠信息检索领域顶级会议SIGIR 有效提升电商非相关性搜素匹配率
日前,信息检索领域的顶级国际会议SIGIR在法国巴黎成功举办,深兰 科技 再夺一冠!在SIGIR2019电子商务研讨会中,DeepBuleAI团队荣获高精度召回任务挑战赛第一名。
SIGIR2019电子商务研讨会聚焦信息检索和自然语言处理研究及其在电子商务领域的应用,并具体讨论了在电子商务领域中产品搜索和推荐的方法。而其重头戏,则是由eBay组织的“高精度召回任务”数据挑战赛,吸引了多个来自全球近20个团队参赛。
本次挑战赛针对的是电子商务搜索中的常见问题:标识使用非相关性排序时要显示的内容。比赛数据集包括大约90万条来自eBay收藏类别中的特定字段,以及与收藏类别相关的150个热门搜索查询关键词,每条数据带有商品标题、价格、分类目录和相应图像网址的URL。参赛选手要合理运用数据集,来判断查询短语和文档是否相关。
通常,用户在电商平台搜索的结果是按维度而非相关性进行排序的,例如流行度、评论得分、价格、距离等,这与传统的、面向信息的搜索有诸多差异。在这种搜索中,文档以相关顺序出现,许多搜索方法都利用了这一点,但非相关性排序顺序的研究则较少。而本次挑战赛的重点在正是使用非相关性排序时找到应该召回的内容,这是一个相当困难的问题,包括典型的搜索挑战,如歧义,多重查询意图等。
DeepBlueAI团队坦言,每次竞赛都是验证深兰科技基础算法和技术实力的机会,该模型也将被用于深兰科技的quiXmart快猫智能零售平台,提高搜索场景的匹配率。深兰科技始终致力于基础研究和应用开发双落地,数据挖掘分析作为最底层的技术之一,对后期的应用起着至关重要的作用。通过不断改进和完善,这些技术有望在深兰科技的产品和方案上得以应用,更多地服务于民生。
深兰科技DeepBuleAI团队基于挑战赛数据集构造了一些有意义的手工特征,并在实践效果较好的文本相似度计算模型ESIM的基础上,叠加了门限机制,设计生成了的Gate-ESIM网络。同时团队还基于训练集采用10折交叉验证,结合多种子平均来搜索得到每个搜索关键词的的标签划分阈值。结果证明,这套方案大大提高了用户非相关性搜索的匹配指标,在Ave-F1指标上取得了非常好的效果。该方案不仅可以应用在电子商务的召回任务中,也可以应用在智能客服,文章推荐等需要做文本匹配的场景中。
SIGIR(ACM International Conference on Research and Development in Information Retrieval)国际计算机协会信息检索大会是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,专注于信息存储、检索和传播的各个方面,包括研究战略、输出方案和系统评估等。国际信息检索大会的历史可以追溯到1971年,当年召开了ACM SIGIR 的信息存储和检索研讨会。而第一次正式的SIGIR 大会于1978年在美国纽约州的罗彻斯特召开,每三年在美国以外举办一次,2019年落地法国巴黎。亚马逊、eBay、 Google等电商及搜索引擎国际巨头,历年来均深度参与了SIGIR。