自动内容推荐详解|想要上前端页面的都往这里看吧
最近,小狐一直在后台收到有关文章推荐的问题。也侧面证明大家对公众平台越来越认可啦~小狐真的好嗨森!
于是,小狐决定详解搜狐公众平台 去重、过滤、推荐 的过程,让大家,对公众平台的推送体系有个具体了解~
文章去重
为什么要去重?
众所周知,在互联网上,同样的文章会被多个媒体或者平台刊登发布。原创内容除了原创来源之外,也经常会被其他媒体和网站转载或者复制。如果用搜索引擎搜索一篇文章,经常会得到多个网址。这种情况下,我们可以自行判断哪个网址更有权威,更有价值,然后点击访问。但是在搜狐自媒体内容推荐平台中,如果同样的文章在信息流中反复出现,这种体验对于用户来说是无法容忍的。用户只需要看到一篇文章即可,这篇文章最好是原创文章,而不是后来被抄袭的版本。
这种场景下,系统需要解决的问题有以下两个:
1. 系统中是否存在相同或者高度相似的内容?
2. 如果存在,那么如何选出一篇最好的、最有可能是原创的文章呢?
文章去重,就是对系统中所有文章进行分析,找出相同或相似的文章,使其不会同时出现在用户的信息流中。系统去重模块会首先通过文章去重机制,找出同样内容或相似内容的文章,然后保留最可能是原创的文章,过滤掉其他相同文章。
去重的好处
l 提升用户体验。 相同内容的文章对用户来说一篇足以;
l 鼓励原创。 在文章相似的情况下,保留原创文章并加以推荐,是鼓励原创很好的方式;
l 给更多内容以曝光机会。 增加信息流内容的多样性。重复内容只推荐一次,其他位置留给其他优质文章。
文章去重过程
如何判断两篇文章内容是否相同呢?对于人来说,需要把文章逐字逐句读完才能判断,但是对于计算机而言,却完全是另外一种判断方式。通过计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的“身份证”也能起到类似的作用。对于图片、视频等信息形式,原理也是类似的。
计算机应用领域中,常用于判断信息重复的方式是一种叫做“信息指纹"的方法。“信息指纹”的计算原理大概如下:
不管是中文、外文还是数字,在计算机系统里,都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。
简单来说,计算会对文本中出现的不同字符的信息指纹,结合它们各自在内容中出现的次数,反复进行算术运算,最终得到一篇内容的信息指纹。 不同内容的信息指纹都是独一无二的。这个指纹一般是一个128位的二级制数字。相同文章具有不同信息指纹,或者不同文章具有相同信息指纹的概率都几乎是0。因此对于去重机制,不必担心误判,也不能心存侥幸。
原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的。并且,相似的内容会具有相似的身份证。这就是文章去重的最基本原理。
每一篇文章都有属于自己的“身份证”,用来与平台中的其他文章进行比对。 如果所有文章的身份证都是独一无二的,当然是最理想的情况,但是如果发现有身份证相同或者高度相似的文章,这时候就要决定选择哪一篇向用户推荐了。进行选择的最终目的是保证向用户推荐的内容是更有可能是原创的文章。
一篇新文章进来后,系统会将这篇文章的“身份证”与系统中已有的文章进行对比,如果身份证与已有文章完全一致或者重合度超过一定阈值,该文章即被判为重复文章,此时系统会考察两篇相同文章的发布时间,因为发布时间更早的文章,更有可能是原创,因此系统会选择发布时间较早的一篇进行推荐。
文章去重机制鼓励自媒体人选择搜狐自媒体平台首发文章,这样文章的发布时间会更早,也就更容易被去重机制保留并加以推荐。
低质文章过滤
搜狐多年媒体经验,积累了大量低质量文章样本,机器虽然没法理解文本内容,但是可以通过不断学习与分析这些质量差的文章样本,描绘出低质文章的共同特征。当一篇新文章进来时,机器会计算新文章的特征并与已有的低质文章模型进行比对,如果特征相似,则会被判断为质量差的文章不予推荐。
目前机器学习的低质文章样本主要是以下几个维度:
1. 广告软文(包括硬广和软文)
2. 小众文章(文章受众窄)
3. 文中附二维码、活动链接等明显的推广文
以上维度具体举例如下:
广告软文
l 硬广
这类文章直接介绍商品或者服务内容,通常在题目中就带有商家或产品名称,且通篇多次重复。文章内容以广告信息为主体,且常带有广告大图。此类广告较容易识别,广告效果强,文章不会被推荐。比如, 「要火!!合肥这家性价比高到爆的商场开进滨湖了!」,文章目的为推广「红星美凯龙商场开业」 活动,且整篇文章并不具备可读性。这类文章会被系统过滤掉不予推荐。
l 软文
软文是由专业人员精心策划的广告,是潜伏在软文中的广告。通常从标题上无法直接判断为广告,其正文也常与新闻热点、知识爱好、赛事公益、心灵鸡汤、文化游记等内容掺杂,常常要仔细读到文末才令读者发觉广告信息。机器对于这种文章,需要不断学习,从而达到准确判断软文的效果。例如 「车子是租来的但生活不是」 这篇文章,表面上看是一篇生活感悟类型的文章,其实是租车公司的软广。
小众文章
这类文章主要是学术活动会议、小型展会、小型招聘会、小型活动等的推广文,地域性、时效性较强,用户受众较少。例如 「“远东宏信杯”天津金融系统网球赛举行」 这篇文章,讲天津市某机构举行的网球比赛。地域性较强,受众较少。这类文章会被系统过滤不予推荐。
推广文
l 含有二维码、电话号码、网址链接等信息
l 正文中推广图片或含推广信息水印的图片(不包括含微信公众号水印图片)
这类文章有明显的推广倾向,可读性较差,会被系统过滤不予推荐。
推荐
在传统媒体平台上,哪些文章能上首页是由编辑们决定的,编辑们会在阅读完文章后,决定是否将其推上版面。这种机制有两个个非常明显的弊端:
| 首先人的精力是有限的,处理的文章数量也是有限的;
| 其次,这种判断方式主要依赖于编辑的喜好,较为主观。
这些限制导致传统的推荐方式无法完全适应现在用户获取资讯的习惯。因此我们需要利用计算机来进行内容自动推荐。
在搜狐公众平台, 一篇文章经过审核、去重、低质文章过滤以后 ,会进入到推荐系统进行算分。文章是否被推荐、什么时候被推荐、被推荐在信息流中的什么位置,都取决于在推荐系统中的表现。
如何算分?
系统是如何给文章算分的,文章又是如何被推出来的,机器分析的部分维度如下:
时效性分析
文章的时效性是很重要的一个维度,新的文章更可能包含时下最新鲜的资讯,因而也更容易被推荐,也更容易出现在信息流的靠上的位置。
作者评分
一篇文章的质量很大程度上受作者的影响,一般而言优秀的作者写出来的文章质量会更高。推荐系统会从多个维度对作者进行评分。包括:
l 作者历史发表文章的反馈表现。 机器会根据作者已经发表的文章表现来初步预估该作者新发的这一篇文章的质量,从而给该文章打一个合理的分数。
l 作者发表的文章垂直性,即作者发表的文章是否和自己所在的频道一致。 如果一个作者深耕某一个领域,经常在该领域发文,机器会认为该作者发文垂直性较好,那么这个作者发出来的文章得分会较高;相反,如果一个作者发文领域比较分散,今天发科技,明天发旅游,后天发财经,机器会认为该作者发文不够垂直,文章得分会相应降低。
l 作者的活跃度,主要看作者的发文频率是否在一个合理的范围。 发文太少,账号不活跃,作者得分会较低,发文太多有营销账号的嫌疑,作者得分也不会太高。发文频率需维持在一个合理健康的范围,此时文章得分会较高。
内容分析
文章主体内容的优劣,对推荐的影响也很大。机器会分析文章内容的各个维度,来给文章计算一个得分。主要维度包括以下几个方面:
l 文章的关键词。 主要考察文章是否和所属频道强相关。每个垂直频道都有一个行业关键词列表。一篇新文章进来时,会计算与行业关键词命中的情况。命中越多的文章,该项算分表现就会越好。
l 文章的热度。 机器会实时计算每个行业当前最新热点,一篇文章进来后,机器会分析该文章是否为当前热点或与热点相关。若命中热点,则会进行相应加分,文章被推荐的可能性越大。
l 文章的结构。 机器会经过一系列的分析与计算,考察文章的图文比例、分句分段情况、语法结构等来评定一篇文章的语言流畅性、可读性等。
用户反馈
通过文章后验数据,对文章进行相关评价。如果文章的反馈数据很好,说明该文章很受欢迎,那么被推荐的可能性也会更大。反馈指标主要包括文章阅读数、阅读人数、评论数等。
点击率预测
一篇文章被推荐后,会有相应的点击率数据。机器会统计历史点击率高的文章,并分析这类文章的特征。新文章进来后,机器会将该文章与点击率高的文章特征对一个比对,如果特征相似,则预估该文章被推荐后也会有一个较高的点击率,那么该文章就更容易被推荐。文章被推荐后的实际点击率,机器也会统计下来,经过不断矫正与学习,机器预估的点击率会越来越准,对推荐的指导意义也会越来越强。
文章经过以上过程的分析与计算,最终会有一个综合得分,根据综合得分给文章排序并推到前端页面,即完成了一次自动推荐。
如何得到推荐
基于以上文章算分推荐的机制,为了增加文章被推荐的可能性并且被推荐在更好的位置,需要作者发文时注意以下几点:
1. 文章时效性强,尽量避免写旧闻或时效性已过的内容(提高时效性得分);
2. 标题和封面图具有足够的吸引力、表意清晰(提高点击率);
3. 图文并茂,易读性强(提高文章结构得分);
4. 内容详实,给读者干货般的充实感(提高文章关键词得分与反馈得分);
5. 观点鲜明,引发读者讨论(增加评论数);
6. 发文频率控制在合理范围内,不要一天发几十篇,也不要好几天都不发一篇(提高作者评分);
另外值得注意的是,有吸引力的标题能带来更多点击,但这不意味作者要成为惯用夸张标题的标题党。恰恰相反,标题党反而会被平台通过技术手段(标题党模型等)识别和打压,影响文章的推荐。除了标题夸张,用户举报密集、负面评论过多、无效异常点击、时效期已过都会影响文章的推荐。
文章的去重,过滤,推荐的环节基本上就介绍清楚啦~~ 有没有觉得棒棒哒!有任何其他疑问也欢迎大家通过留言,私信的方式勾搭小狐,小狐会在第一时间回复哒~
by搜狐公众平台推荐组