智能化进阶,如何用文本语义理解技术优化推荐系统?
NLP将推荐打造成“精装房”
相信大家对推荐系统一定不陌生,尤其是打开淘宝时,首页的“猜你喜欢、便宜好货”、购物车下面“你可能还喜欢”、商品详情“店铺推荐”......推荐系统已成为各大app标配。
但什么是NLP(Natural Language Processing)技术呢?
NLP也就是人们常说的自然语言处理或者叫文本语义理解——研究如何让计算机读懂人类语言。
推荐系统和NLP是什么关系呢?
如果用熟悉的房子装修做比喻,普通的推荐系统相当于“毛坯房”,NLP相当于装修材料,有了NLP的推荐系统就是“精装房”。“毛坯房”也能住,但是不够舒服,映射到推荐系统,就是效果有点差强人意,体验不够完美。
NLP如何“装修”推荐系统?
触及到文本信息大概率会用到NLP,推荐又是和内容打交道,与NLP交汇甚多,下面我们详细说下NLP在推荐系统中应用。
1.构建物品画像
在达观服务的客户中,大家经常反馈的问题是,想尝试接入推荐系统,但是物品信息可能不多,标题有,但标签和类别都没有,这时候还能接入推荐系统吗?当然可以。NLP可以通过分析物品标题、正文、描述等信息提取标签、赋予主题词和分类等。
代表:搜狗
输出:标签+分类+关键词
2.审核物品质量
现今很多APP注册门槛低,内容大多来自于用户上传,这样一不留神就因出现低俗内容导致“网站被关”,对于推荐而言,有必要对被推荐数据进行审核过滤:
- 对于视频或者图片审核,目前采取人工审核较多;
- 对于文字文字,目前市场上涉黄、涉政、反动、广告等审核比较成熟,但也难免有漏网之鱼,人工复核也很有必要。
反过来,推荐也可以审核文章质量,通过推荐可以知道产品的点击率、点击率、阅读/播放时长等数据,可以筛选出用户喜欢的内容。
推荐有试探机制,对于新上线的内容,会选择部分用户推荐,如果效果不好会减少推荐力度,反之加大,很好的在节约成本的前提下最大化挖掘内容信息。
典型代表:梨视频、小红书
过程:机器全部初审->人工部分精审->智能分发
3.NLP连接搜索和推荐
以前的搜索系统更多是千人一面,但是随着信息丰富,当你只需要10个结果,但是输入“苹果”标题满足这个要求的结果上万个,之后如何从10万个中挑选10个给用户展示就可以用到NLP和推荐技术了。需要将搜索词和产品标题、标签、描述等信息进行匹配,匹配的程度越高,会认为相关性越大,同时基于用户日常点击、购买等行为进行结果推荐。看似是个很简单的过程,但是细节很多,对标题分词进行准确、模糊、单词匹配就不是一件容易的事,由于可用的信息太多,需要对不同特征进行归一处理。
典型代表:谷歌、虎扑识货
功能:谷歌打造千人千面搜索;识货在搜索结果不足页面引入基于搜索词推荐功能
4.基于文本生成创意展示
在闲暇之余,用户倾向于看到更容易理解的内容,在用户没有明确意图的时候,给用户一个推荐理由往往可以达到事半功倍的效果。同时,NLP可以提取出一些简短信息,用于向用户展示。
例如:
当用户买了苹果手机后,可以推荐ipods,同时给出“ipods与苹果手机更匹配哦”;
在好友推荐的时候,可以给出“她和你都是天蝎座”……
典型代表:大众点评
输出:摘要标题+商户文案+内容聚合
示例
- 摘要标题:顾名思义,就是针对某条分发内容生成摘要作标题展示。点评内容源非常多样,但超过95%内容并没有原生标题,同时原生标题质量和多样性等差异也极大。
- 商户文案:生成有关单个商户核心卖点的描述,一般形式为一句话的短文案。
- 内容聚合:生成完整的内容页包括标题及多条文案的短篇推荐理由,不同于单商户文案的是,既需要考虑商户的相关性,又要保证理由的多样性。
5.满足业务需求
在推荐结果中,不同客户都会加入一些业务规则,业务规则使得结果更符合企业要求,但同时也加大了推荐厂商的门槛。例如:
- 对于资讯行业,现在很多文章标题都差不多,防止用户感觉重复,在推荐时,标题相似度大于80%的内容不一起推荐,这里会用到文本相似度计算
- 业务范围较广的APP会进入地域频道,在推荐时,上海频道只推荐上海新闻、合肥频道只推荐合肥新闻,这里会用到地域标签提取
- 某个关键词的内容屏蔽不推荐,这里会用到关键词与标题的文本进行匹配和分词技术
典型代表:澎湃新闻
功能:地域推荐,标题相似度处理
对于推荐中NLP,难点在于物品中结构化文本数据太少且文本内容信息量不确定。NLP研究难度大,看似容易,但是其底层涉及到分词、词性标注等一系列基础工作。