关于UGC内容社区新热推荐的一些思考记录
编辑导读:内容推荐是将用户喜欢的,同时符合平台意志的内容按照一定顺序展现给用户。热点新闻、新鲜事物这些是最吸引眼球的,是留住用户最有用的手段之一,这也是内容平台都在追热点的原因。本文作者对此进行了一些思考,与你分享。
一、前言
本篇文章不会涉及过多背景介绍与基础信息的讲解,默认大家都对于推荐本身,对于推荐为何要追求新热有一定认知。
一句话而言:内容推荐是将用户喜欢的,同时符合平台意志的内容按照一定顺序展现给用户,而热点事件是最吸引眼球的,对于新热内容,如果能更快更及时地展现给用户,就能够将用户的注意力牢牢地抓在平台手中。
基于策略PM视角,内容社区应该从以下几个方面去服务满足用户获取新热内容的需求:
热点获取、热点内容挖掘、热点内容推荐、热点感知提升&评估体系搭建 。
下面我也会从这几个维度来聊聊新热推荐在内容社区的实施,包含一些可能存在的坑,以及一些需要注意的关键点。
二、新热推荐的社区应用
2.1 热点获取
热点事件分为两种,一种是全网热点事件,比如前段时间的吴亦凡被捕、东航坠机事件、最近的上海疫情进展,第二种是原生热点事件,基于社区文化,在内部产生,具备一定破圈能力的事件,这方面的案例最典型的是古早的“贾君鹏,你妈妈喊你回家吃饭”、最近的“蔡徐坤周杰伦超话打榜”。
全网热点事件是全民关注的,其特征是 发酵非常迅速,能吸引大多数人的目光,通常不具备过高的理解门槛,但足够重要或者足够劲爆 。当事件发生时,人工往往会比机器有更强的先验判断能力,比如吴亦凡事件,当被捕的消息刚发布微博的时候,机器可能需要计算同时段爆发的相关讨论情况才能判断事件等级,但人工就很容易判断其一定是一个全网热点事件。
原生热点则一般是 社区内部先小范围发酵,是社区用户一段时间最关心热议的话题,初期一般具备具备鲜明的领域属性,或者存在一定理解门槛 。但当讨论议题足够具备争议性,且衍生出了一些不需要了解事情完整情况也能get到的梗的时候,原生热点也完成了进阶,具备了拓圈,成为全网热点事件的可能。
扯了一大堆终于到了正题,作为平台方,我们应该如何更快更准确的获取到热点信号呢?
同样需要分热点类型来看,对于全网热点事件,着重看三方面信号:竞品push内容(微博、头条、百度等)、头部媒体号发布内容(人民日报、共青团中央等)、竞品热榜内容。
其中 push通常是最快的,热榜是最准的,头部媒体号发布的通常是最具价值的 。
这三类信号都存在杂音,比如push还包括很多非新热向的个性化push,热榜也通常有平台意志强加的内容,策略在这步中需要做好的是信号的获取与处理,接入更丰富的信号源,做好信号处理,包括 事件聚合 (同一事件在不同平台存在不同表述)、 事件交叉验证 (同时间出现在多个竞品热榜高位的大概率是全网热点事件)。
不可或缺的还是运营的介入,提供一个人工的判断界定,可能更快的热点事件发现、修正策略对事件重要性的判断结果,这方面需要策略团队与运营的通力协作,通常还需要设置一些中间指标,来衡量策略和运营在热点发现这一环节的表现,这块可以自行设置,就不再展开。
而对于原生热点事件,就更让人头疼了,对于头部社区来说,如微博,由于用户形成了较强的#话题感知,通过计算一段时间内话题的热点蹿升情况,是能够很好发现热点的,而对于其他ugc内容社区,热度蹿升的德尔塔值同样具备很强的参考价值,因为具备讨论的热点一定会在短时间具备强虹吸效应,将附近的注意力与流量聚集起来,这就会带来一些置信的热点判断信号,包括用户层面的集群、内容层面的集群。
策略团队通过与数据团队协作,定义获取热点置信信号,定义热点爆发度信号(用于计算热点内容的爆发扩散能力)、来挖掘可能的原生热点事件。
2.2 热点内容挖掘
这部分尤其针对全网热点,从外站获取到了热点事件,通常以一串文字的形式呈现,比如#邓伦偷税1.06亿,这就是策略用以内容挖掘的主要抓手,而在ugc内容社区,用户发布的内容并不具备很强的结构化,很多时候标题就是“xdm,出大事了”,然后截图的热点事件的外站截图,这就给策略做内容匹配出了一道大难题。
要平衡准确性和召回能力,怎么解呢?
传统的做法是通过切词匹配&事件聚合策略,匹配的主体分别是热点事件名的切词结果和社区内容标题,这种做法的优点是匹配的准确性较好,但缺点是没法匹配到上一段我们所说的那种内容,而这种内容可能在社区中占比比高结构化的内容多得多。
笔者尝试过加入正文内容,以及ocr识图结果来做匹配,结果是匹配的相关性很差,几乎是不可用的程度,和策略rd讨论过后,有几种可尝试的方法,也po出来和大家讨论:
- 梯度匹配,同样引入正文内容和ocr结果,但加入限制,对于这部分内容,要求匹配相关性更高,再加入召回。
- 策略尝试,在jarcard相似度的基础上尝试其他算法,进行bagging,提升匹配的准确性。
- 获取热点title及落地页内容、社区内容title和内容,基于KeyGraph算法做匹配。
同样,运营在这步中可以做为人工内容补充的一个源泉,同时对策略挖掘的内容做二次审核和不相关剔除,同样需要制定相应的中间指标,共背指标才能互相约束。
这部分就不细拆了,如果想要进一步讨论,可以找笔者私聊~
2.3 热点内容推荐
这部分反倒是最简单的,三个步骤需要关注一下: 热点事件的定向人群冷启、热点事件的扩散、热点事件的LCN及时退场 。
定向人群依赖于对用户画像的刻画,需要对新热用户进行定义,对这部分喜欢看热点事件的用户,优先将热点事件推荐展现,根据他们的表现,来决定下一步是否需要进行热点推荐的扩散(提权)、热点事件同样需要做好LCN退场,即对于同一个事件下,内容推荐超过X条,无点击行为,需要对该用户及时退场,避免抢占曝光资源。
这步策略主要聚焦的核心指标,可以通过“ 事件发生xx min时间内的用户覆盖 ”来衡量。
2.4 热点感知提升&评估体系搭建
推荐出新热内容,并不直接意味着用户新热感知自提升了,需要结合功能侧的一些改动,比如典型如微博,推荐带推荐理由,搜索框实时展现热点事件等,都是从功能侧驱动,配合策略实现用户切实对新热事件感知的提升。
那么怎么评估用户新热感知提升了呢?
包括月度的用户评估报告(最好有和竞品的对比,新热感知月报)和数据维度的例行评估。
数据维度的评估主要从四个方面进行:
- 全面:事件覆盖全、事件推荐角度全;
- 及时:是否在事件发生第一时间给用户推荐出来;
- 准确:是否内容是热点事件相关的,是否推给了对该热点事件感兴趣的人;
- 适度:是否推荐适度,不存在霸屏、连出、退场不及时的问题;
三、新热推荐的拓展想法
有几个问题笔者一直在思考:
- 内容社区真的把新热做起来,应该是一个什么样的状态?
- 热点事件,更应该以什么形式承载,单内容?话题?
- 话题榜中,全网热点和原生热点,应该怎么分布才算合理?
- 新热线条,产品和运营应该怎么分工,究竟是哪方主导?
这几个问题,限于篇幅,就不在这篇文章中展开了,如果大家有想法,可以在评论区发表自己的看法,也可以找我私聊讨论。
若能抛砖引玉,不胜荣幸~
#专栏作家#
随心将夜,微信公众号 : 互联网菜鸟产品进阶之路,人人都是产品经理专栏作家。关注社交赛道和社区发展,擅长分析行业趋势。
本文由原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议