个性化算法要合规整改,“个推”政策限制下如何做好算法推荐?(上)
编辑导语:个性化推荐可以让用户更加快速地获取自己想要的信息,帮助用户在海量信息中进行筛选,减少用户的时间成本,但这存在着数据泄露的隐患,且后续若形成信息茧房,也会限制用户的思维边界。那么,未来个性化推荐应该怎么走,还存在着什么发展空间?本文作者就个性化推荐的定义、利弊以及发挥空间等问题做了探讨,一起来看一下。
8月27日,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定(征求意见稿)》(以下简称《意见稿》)并公开征求意见。
《意见稿》对具有舆论属性或社会动员能力的算法推荐服务提供者进行重点规则,从内容推荐要求坚持主流价值导向,到不得实施流量造假、控制热搜等影响网络舆论,剑指微博、今日头条、百度、快手、抖音等资讯信息及短视频平台。
《意见稿》对个性化推荐开关、个性化推荐等做出明确规定,APP要在规定时间内整改合规。以下是关于《意见稿》的部分截图:
大数据算法为王时代,个性化算法是潮流(但算法背后衍生出不少个人隐私问题),《意见稿》基于人权益本身出台。平台如何在个性化推荐合规情况下,进一步做好人工推荐或精准推荐,达到双管齐下效果?本篇浅谈个人对算法推荐的看法。
一、什么是个性化推荐?
个性化推荐为什么受到平台“吹捧(喜欢)”?算法主要解决了什么问题?什么是个性化推荐?
个性化推荐就是在特定场景下,人和信息之间更有效率的一种连接。各平台热衷于做算法推荐的目的是要把内容/物品变成价值的效率系统,提升产品整体的使用转化。
二、个性化推荐的利与弊
个性化推荐可谓互联网经济最核心的取胜武器。《意见稿》的出台是要逆时代洪流发展?当然不是!
任何事物都有两面性,个性化推荐算法也一样,利弊结合。
1)好处
- 用户打开产品能快速找到自己想要的物品,提升整体查找效率;
- 方便用户快速了解自己感兴趣的内容;
- 方便用户专注于了解自己喜欢的领域,形成自身优势。
2)坏处
- 所有便利都是通过出让更多个人隐私换来的。一旦平台存储的数据泄露,将是人类史上一场无法预估的信息灾难。
- 大数据比你自己更懂自己,但长期下去容易形成信息茧房,不利于个人认知成长。
- 个性化相似内容推荐频次过高,重复看到相似推荐等于浪费个人时间。
《意见稿》基于个性化算法所暴露出的弊端,进行了强制约束和整改。
三、推荐的进化史
近10年算法推荐发展迅速,但不少平台仍然保留着“个人推荐+算法推荐+个性化推荐”几种不同的推荐策略,三者之间有何区别?
1. 人工推荐
个人推荐是推荐的1.0版本,由平台运营/编辑根据自己对内容或物品的品质、热度等做出评分,最后将评分高的内容推荐给用户。个人推荐的内容通常是千人一面,平台需要花费较长时间去验证人工挑选的内容是否符合市场/用户的需求,整体推荐效率滞后。
人工推荐目前仍广泛应用于传统行业,如报纸、媒体、出版等。
2. 算法推荐
算法推荐是推荐的2.0版本,即平台根据推荐诉求(如提升内容的CTR、CVR等指标),形成简单的算法逻辑,让内容满足平台大多数用户的需求。
比如常见的排行榜、新品榜、人气榜、飙升榜等,但算法推荐仍然是千人一面的推荐效果。
3. 精准推荐
精准推荐是推荐的3.0版本,它是前两种算法推荐的综合产物。主要通过给用户、内容、物品打上各类专属标签,再给贴有不同标签的用户推荐他们可能喜欢的内容,在某种程度上精准推荐“简单”的实现了千人千面的推荐需求。
精准推荐目前广泛应用于APP推送、广告投放等。
4. 个性化推荐
个性化推荐是推荐的4.0版本。它跟人工推荐最根本的区别在于,人工推荐是对用户“被动的投喂”,而个性化推荐则是用户“主动的选择”。
个性化推荐的核心在于推荐模型的训练,主要包括召回和排序两种主模型,且个性化推荐进一步细分为搜索推荐和个性化推荐。
搜索推荐是将海量内容与用户表意明确的查询意图的相关联,通过分词、变换、扩充、纠错等过程,更好地了解用户的搜索意图,实现精准推荐。而个性化推荐则是将海量内容与用户表意不明确的偏好相关联,最后输出用户可能偏好的推荐物。
因此个性化推荐的逻辑是——APP通过大数据收集,记录下用户每一个行为动作、行为路径、停留时长等,实时分析用户的主要意图,再通过以物推物、以人推物、协同过滤等规则,将用户偏好内容先召回,最后按排序规则计算出要给用户推荐的内容。
个性化推荐解决用户千人千面的需求,目前广泛应用于各大头部APP,其中以BATJ四大巨头为主。
四、个性化推荐存在的问题
个性化推荐发展迅猛,但仍然存在不少问题,其中最常见的4个问题便是:
1. 重复推荐问题
当机器算法足够了解你之后,算法能快速计算出用户偏好的内容,但同品类、同热点甚至是相似度极高的内容,无法避免内容重复出现在一屏或多个推荐位的问题。
将APP页面拆分成不同板块分析下,以淘宝APP为例,页面可分为搜索区、轮播banner区、分类icon区、特价划算区、直播区等不同榜单模块。淘宝的算法推荐业内数一数二,所以从物品推荐来看推荐的内容重复度低,但目前推荐能做到四大巨头这程度的企业较少。
因为榜单之间的推荐系统其实比较复杂。举个简单的例子,APP一共有10个榜单栏目,其中2个榜单是纯人工干预,剩余8个榜单纯算法推荐。这种推荐逻辑至少会出现3种重复推荐的问题——人工推荐的榜单之间存在重复推荐、纯算法榜单之间存在重复推荐、人工榜单和算法榜单之间存在重复推荐。
如果榜单跟榜单之间制定去重规则,能降低重复推荐的概率。然而去重限制并不能100%保证页面不再出现重复内容。 因为榜单越多意味着去重规则越复杂,越靠后的榜单可能会出现去重后无内容召回的情况, 无内容召回时系统会自动启用兜底推荐,这便衍生出其他2种重复推荐问题——人工榜单跟兜底榜单存在重复推荐、纯算法榜单跟兜底榜单存在重复推荐。
2. 推荐不准问题
负责算法推荐时,不少同事曾给我反馈算法推荐不准的问题。比如他不是老师身份,平台总喜欢给他推荐老师偏好的内容;他不是高管,总给他推荐高管的资讯;他对美妆不感兴趣,总给他推荐美妆信息等等。
好几次一查对方日志发现,用户早上7点04分浏览了美妆频道、中午11点30分点进去了某化妆品详情页、中午12点45分在看某美妆博主的直播……这些行为日志都明确表明用户对美妆品类有强烈需求,而用户本身却不承认自己有过这些点击行为。为什么?
除了“超我”不承认“本我”的行为以外,还因为会存在一个账号在多台设备上使用过,或多个不同用户使用同一个账号下单等情况。
这时候一个账号对应的实际用户身份非常复杂。虽然算法可以通过增加设备ID加大匹配门槛,但系统仍不能100%准确判断好每次浏览的是用户A还是用户B,这就是为什么在个性化算法推荐成熟的时候,仍然有很多用户吐槽大数据推荐不准。
实际上,你喜不喜欢某品类,有没有点过哪些资源,大数据给你记录得清清楚楚,大数据不会骗人,有时候骗人的反而是我们自己。
3. 推荐过于密集
相似内容推荐过于密集的问题十分普遍,最常见于抖音。
我自身是个影视剧迷,非常爱刷影视剧视频。抖音算法计算出我的偏好后,精准的拿捏住我对哪些剧感兴趣。比如我最近在追《周生如故》,抖音里10条内容就给我推了6条关于该剧的内容。
站在用户角度,我非常高兴算法给我精准推荐偏好的视频,但同一个片段上一个视频刚刷完,没刷几个视频同样的内容又出现,推荐频次过于密集最后导致用户在茫茫视频推荐中,人工过滤未看过的视频,心累。
4. 热点时效性问题
算法推荐遇到的最大挑战点在于对热点内容和时效性强的内容推荐,比如马上中秋国庆到来,强时效性的内容在推荐时需要加入时间衰减的推荐机制,不然就会给用户推荐不合时宜或已经过时的内容。
五、算法成熟时代,如何应对“个推”政策危机?
个性化推荐算法暴露不少隐私问题,《意见稿》整改是维护社会主义价值观的正向措施。在算法成熟的时代,企业该如何应对《意见稿》中提到的合规处理?
——答案只有一个,按照政策执行,该关闭的开关关闭,该下线的算法下线,该修改的引导文案修改,算法推荐要坚持弘扬社会主义正能量。
六、精准推荐发挥空间还有多大?
个性化算法被“整改”,算法“回滚”到3.0版本,还有多大发挥空间?
其实这算不上什么算法回滚。即使众多企业都在谈论个性化推荐,但个性化算法只有少部分头部玩家在应用,不少企业目前也只处于3.0推荐阶段。标签体系虽然成熟,但我认为标签还有进一步的挖掘空间。
标签收集可分成3种类型,一是内容本身的标签、二是使用内容的人的标签、三是场景标签。简单概括为冷标签、温标签、热标签,而热标签便是其中可挖掘的爆发点。
至于什么是冷标签、温标签、热标签,标签爆发点在哪儿?我们下一篇推文再详细分享,敬请期待。
#专栏作家#
卡卡,微信公众号:卡卡的产品札记,人人都是产品经理专栏作家。8年大型互联网产品运营经验。曾负责过稻壳儿、手机主题等产品,对IP字体的打造引领了行业风向标。既当过业务操盘手,也当过自媒体创作者,对产品运营、内容运营有自己的见解。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。