用“斗渣男”的方法,与低质内容做斗争
编辑导读:对于内容产品来说,内容审核是必不可少的环节之一,特别是针对低质内容的筛选和删改更是劳心劳神。如何快速有效识别低质内容,营造平台良好生态?本文作者以“斗渣男”的例子,对此展开了分析说明,一起来看看~
直击灵魂一问: 你遇到过渣男吗?
直击灵魂二问: 你被渣过吗?
直击灵魂三问: 你被渣过后,怎样反击?
要是没有,这篇文章就到这儿结束了?
不!结束不了!
现在没遇到,可以看看渣男的套路,防患于未然。
反渣男套路四部曲:
- 第一步:发现—透过蛛丝马迹,发现存疑迹象
- 第二步:分析—寻找证据,证明他的身份
- 第三步:识别—利用确凿证据,坐实渣男身份
- 第四步:反击—多种手段齐上阵,绝地反击
净化生态,打击低质内容,同样适用四部曲:
- 第一步:发现—透过蛛丝马迹,发现疑似低质
- 第二步:分析—寻找证据,证明它是低质内容
- 第三步:识别—利用模型、人工,精准识别低质
- 第四步:反击—降权、过滤等手段齐上阵,绝地反击
一、透过蛛丝马迹,寻找证据,揪住低质内容
我们都知道,世上渣男千千万,普遍性中都带有独特性,先来看看常见的有哪些?那些不常见的,可以通过什么方法来发现?
最常见的就是徒有外表,没有内涵,利用精致外表来迷惑人心,让你放下戒备,彻底沦陷。
另外就是花言巧语,利用人性的弱点,让你放下戒备,彻底沦陷。
看到这里,也许你会反问!
- 只要外表光鲜,就是渣男吗?
- 只要花言巧语,就是渣男吗?
- ……
其实不然,这些只是列举的存疑迹象,当出现这些迹象后,我们需要小心啦,进一步搜集证据,进行综合分析。
- 试探他对你的各种表达,是否忽冷忽热?是否行为异常?
- 看他是否向你坦白过往的历史,日常所做的事,是否有所隐瞒?
- 看他是否会把你介绍他的朋友,是否允许你进入他的世界,承认你的存在?
- 走访他的周边朋友,听最“真实的反馈”
当然,要是有最直接的证据,就不用费力去做这些了。
比如《三十而已》中,顾佳似乎已经通过许幻山的异常行为发现了端倪,始终没有直接证据。直到通过林有有身上的饰品,以及闺蜜拍的照片等直接证据,才坐实了许幻山出轨的事实。
……
当把这些渣男特征投射到内容上,分别对应着标题党与低俗色情内容等,这类内容利用各类吸引眼球的关键字,夸大其词,刺激用户点击欲望。利用人性的弱点,刺激荷尔蒙分泌,刺激用户点击的欲望。
低质内容特征除了这些之外,还有很多很多,随着自媒体的发展,自媒体创作者发挥着无穷无尽的“聪明才智”获取流量。
对于可枚举低质内容,按照不同内容体裁可有以下枚举值:
对于不可枚举低质内容,没法通过模型或者人工立马将其干掉,但可通过一些蛛丝马迹,将其揪出重点监控与分析。
1. 用户反馈-最真实的声音
内容类产品都有设置用户反馈渠道,除了固定反馈选项,用户也可主动填写意见建议,那么应该怎样用好这些资源?
A)搭建数据监控报表,针对每一类负反馈选项,整体负反馈投诉等 ,监测小时级、天级的用户反馈趋势变化,定期进行分析。建立报警机制,当某类投诉超出一定阈值(比如xx小时内投诉内容猛增xxx+),发出报警信息,重点排查监控。
B)定期分析用户主动填写的意见反馈,除了人工一条条查阅总结,也可通过python切词进行词频分析 ,统计用户负向反馈集中于哪些方向。笔者拉出了所在公司一定时间周期内用户负反馈数据,用python切词处理得到如下结果:
通过词频统计发现,用户反馈比较高频的词语基本没什么实际意义,但也不乏“胡说八道”“狗屁”“废话”等反应用户情绪的词语,再联系情景语境与被反馈的文章内容,也可总结出一批低质内容特征(慢工出细活,这里需要很强的总结归纳能力)。
附上python切词代码,墙裂推荐超好用的一款工具-VS code。
import jieba
txt=open(“d:\负反馈内容.txt”,”r”,encoding=’utf-8′).read()
words=jieba.lcut(txt)
counts={}
forwordinwords:
iflen(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambdax:x[1],reverse=True)
foriinrange(1000):
word,count=items[i]
print(“{0:<5}{1:>5}”.format(word,count))
2. 审核当好把门关
随着自媒体时代到来,人人都是发声者,每日海量内容涌入各大平台,内容安全变得越来越重要。机器模型无法做到100%准确识别,人工的力量变的愈发重要。
众所周知,审核同学会在审核时为内容打标(主要针对既有的枚举低质内容标签),业界常规做法是利用机器模型辅助人审,提升审核效率。
无法枚举的低质内容,该怎样发现,监控爆发增长趋势?
此刻,搭建一套监控机制体系显得尤为重要!
第一步:审核工具增加“疑似低质”tag选项,标识没有被既有低质标签覆盖的内容。
注意点:加强审核人员培训,包括内容审核标准培训(了解实际工作,提升专业能力)、业务培训(拓展知识边界,加深业务理解)等,只有审核同学更了解业务,才能在审核打标时理解更透彻。
第二步:建立监控报表,针对每一类既有低质内容 ,疑似低质内容等,监测这些标签内容在不同类目、不同时段的数量变化趋势,对于一定周期内爆发式增长、某个类目爆发式增长的低质内容,重点监控与排查分析。
第三步:定期分析疑似低质内容,从中总结归纳新的低质内容,建立模型标准 ,推进样本标注与模型训练,输出满足上线要求的内容质量模型,辅助人审或者应用线上。
二、精准识别低质内容,绝地反击
我们透过蛛丝马迹,发现了渣男的可疑迹象,通过各种方法搜集到证据,怎样让他现出原形?
- 当面对质
- 将他说的假话念给他听
- 将隐瞒的种种事实说给他听
- 将朋友的真实反馈说给他听
- 将最直接的证据扔他脸上
- ……
如果
渣男,鉴定无疑,怎么处理?
当然,一脚把它踢滚蛋呀!
那么,通过模型、人审精准识别的低质内容,应该怎样处理?
想要回答这个问题,首先我们来看看推荐系统怎样运转。
推荐系统大致分为5个环节: 推荐内容候选池(正排)→召回→粗排→精排→机制策略
- 推荐内容候选池:从内容库中通过一定过滤条件,筛选可用内容。
- 召回:从推荐内容候选池中,通过一定规则(内容特征特征、模型、功能等)找到对应内容。
- 粗排:针对各路召回内容,利用用户特征、内容特征、环境特征、交叉特征等进行粗粒度排序。
- 精排:再次利用精细化特征信息,利用cyr预估等模型,为内容打分排序,产生一个用户的待推荐内容列表。
- 机制策略:使用各种机制策略(打散、去重、提权、过滤等)得到用户最终推荐内容列表。
由此来看,处理低质内容可作用于召回、机制策略等环节。
1. 作用于召回-召回过滤
适用范围:严重影响用户阅读体验的强低质内容,比如视频无声音、模糊、音画不同步等。
实现形式:直接将命中的tag内容过滤掉,不会进入排序环节。
2. 作用于机制策略-推荐降权
适用范围:不严重影响用户阅读体验,比如标题党、低俗等内容。
实现形式:
1)机制策略侧加上降权逻辑,降低此类内容在推荐列表排序,从而减小曝光量。
注意点:对于标题党、低俗等内容打压,势必会对大盘数据造成影响,因此需要AB实验验证打压策略的实际效果。
- AB实验随机分桶,进行小流量实验
- 关注核心数据指标:人均人均点击、人均阅读时长、次日留存、3日留存等。
- 若实验收益负向,观察核心指标浮动区间是否稳定,找到平衡点,再上报领导层,对于实验的负向收益区间是否可接受。若可接受,可分阶段扩大流量上线。若不可接受,需要调整策略(建立低质内容分档分级,由严重到一般分级打压,给用户适应周期)。
2)搭建一套生态净化平台工具,灵活管控内容生态
生态净化工具可大致分为三个模块: 模型内容特征参数配置→净化过滤任务配置→生效范围配置
- 模型内容特征参数配置:可实现对不同模型内容特征设定阈值,卡档分级,根据模型迭代优化效果,灵活调整参数配置。可支持随时增添新模型内容特征配置。
- 净化过滤任务配置:针对图文/视频/小视频等不同体裁分别配置过滤任务,可从一二级分类、标题关键字、内容属性特征(模型特征+人审标签)等维度进行配置。可支持随时添加新模型特征与人审标签。
- 生效范围配置:针对配置好的净化过滤任务,再次配置生效范围,可从用户性别与年龄,地域、手机型号与系统、bucket(流量分桶)等进行生效用户圈定。可支持随时添加新的特征字段。
通过生态净化工具,灵活管控,在重大节日、特殊时期等节点,可实现快速、灵活响应。
渣男千千万,永远斗不完。
低质内容万万种,永远打不完。
对待渣男,要擦亮双眼,不要沉迷!
对待低质内容,要擦亮双眼,不放过一个!
这场战役,将是场持久战!
本文由 @珂然 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议