神策数据成林松:数据智能在业务场景下的应用(附PPT下载)
在神策 2020 数据驱动用户大会「上海站」现场,神策数据业务咨询师成林松分享了 《数据智能在业务场景下的应用》 的演讲。 (文末附 PPT 下载地址)
本文根据其演讲内容整理,数据均为虚拟。主要内容如下:
-
数据智能的概念与重要性
-
业务经营视角下数据智能的典型应用场景
-
数据智能的实现过程和落地实践:以「推荐」为例
-
神策如何助力企业探索数据智能
数据智能的概念与重要性
关于数据智能,我们首先要了解什么叫数据智能?“数据智能指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据‘智能’,并通过建立模型寻求现有问题的解决方案以及实现预测等。”
从消费者的角度来看,数据智能的应用场景已经覆盖生活的方方面面,比如家门口的红绿灯,基于“城市大脑”数据制度,红灯跳转时间经常调整,虽然实际的应用效果可能会导致交通拥堵,但这也从某种角度验证了数据智能已被广泛应用。
从企业经营角度来看,数据智能的实际应用场景包括个性化推荐、相关数据分析等,其在企业的初步应用目的即 帮助企业提升经营效率和精细化运营。
那么,为什么会有越来越多的人和企业开始关注数据智能?我们可以从供给和需求两方面深入了解。
在数据智能的供给端,其大规模的商业化要求其具备核心的基础能力,这些能力可以像齿轮一样转动促使数据智能的商业化:第一,模型,很多经典的计算模型在十几年前甚至更早以前就提出来了;第二,计算性能,但部分模型受制于计算的性能,未能得到较好发展;第三,数据的丰富度,它是决定数据智能能否做好的重要因素,这也是近些年各大企业纷纷重视数据、注重行为数据采集的原因。
在需求端,首先要从 商业竞争的核心目的——提升经营水平 出发。在存量竞争时代,我们更多的将注意力放在挖掘老用户价值上,会关注其 ARPU(每用户平均收入)值。比如某咖啡品牌考虑在咖啡售卖之外,扩充品类,加入轻食套餐的销售等,这是基于企业战略的考虑,而提升 ARPU 值的核心解决方案是「个性化」,如果面向每一个用户提供的产品都是根据其偏好定制的,那么转化率必然会得到巨大提升。但是如何实现个性化?纯粹靠人力给每一个用户打标签是不现实的,这个时候就需要数据智能来帮助企业实现「个性化」。
业务经营视角下数据智能的典型应用场景
我将数据智能的典型应用场景分为以下几类,如下图所示:
第一,助力业务分析,辅助产生业务洞察。
作为分析师,经常关注指标的异动,对用户和人群的认知,定位某个/些功能对特定用户产生的行为具有因果关系,以及数据维度下降等,以此发挥数据的价值。
1.指标的应用分析
在分析层面,我们经常做指标的应用分析,在某些特定场景下,分析师的一些分析思路其实可以按照特定规律固定下来,比如 A 企业的业务较稳定,管理者关注的是与销售额相关指标的异动,那么就需要采用不同的分析思路,对其指标的异动做相应分析。一方面可以做维度的下钻,通过地域、门店、品类等多维度进行分析,挖掘该异动是由于某一维度导致还是全局变化引发的;另一方面,也可以从相关的因子角度去拆解该指标,分成流量、转化率等,最终得到指标异动的原因。
针对此,我们完全可以通过规则建立、模型等方式来实现业务分析,节省分析师的投入,并且如果发现指标异动,还可以通过数据产品自动给出解释。
2.人群的需求分析
有些产品到了一定阶段其用户可能会达到几十万、几百万甚至更多,但是用户都有哪些类型,分别有什么样的需求?这对分析师来说是一个“迷人”的话题。
1)基于决策树,洞悉用户留存
下图是神策为某短视频企业做的新增用户的需求分类,采用「决策树」的方式,以次日留存为目标进行分类,用于分类的标签包括“核心功能的使用次数”等。
通过分析发现,“高播放互动型”用户在平台上操作“播放”的频率较高,同时也会在评论留言区多次活跃,我们可以判断此类用户是将该平台作为“兴趣社交”使用;“高播放消费型”用户则是“播放”较多“互动”较少,属于内容消费型用户;而还有一类用户明显地把该平台作为视频拍摄与发布的工具,那么就可以猜测该用户背后是一个短视频运营机构等。
2)基于用户行为探查用户需求
下图为神策数据基于 KMIS 为某航空 APP 的新增用户做的聚类。
基于新增用户行为数据分析,我们可以发现,在“用户新增场景”中占比较高的是基于“工具需求”,同时用户在使用 APP 的过程中,高频率使用的功能为“值机”,结合神策过往合作经验,大部分航空 APP 被多次使用的功能均为“值机”,因为多数用户的“预订”动作都会选择在 OTA (在线旅游)进行,因此对航空 APP 的更多需求在于预订之后的“查询”、“值机”等;而对于“黄牛类型”用户来说,他们更多的在 APP 上操作“领券”的动作。
3)特定功能对用户的留存影响
对于做内容的产品,经常需要考量的问题是“什么样的功能能够对用户的留存产生影响”。下图为某内容社区平台,通过在评论区展示高质量的核心内容,并提高该评论内容的曝光,让用户更快、更近距离地感受平台价值,以此驱动用户留存。
该分析思路也可以进一步孵化:通过数据分析及运营工具基于相关的计算规则,将评论、内容等进行排序,以用户行为分析结果决定内容排序,然后再去思考背后的因果关系,进而促进产品的优化。
4)数据降维定位核心问题所在
很多情况下,用户的评论、反馈等内容多而杂,逐条去看耗时耗力,这个时候我们就可以通过特定的模型,对内容进行维度下降,聚类出几类典型结果,帮助我们定位核心问题所在。
这种方式通常用于文本分析、报错等场景中。
第二,精细化运营。
在此过程中,很重要的一个动作是识别用户各个阶段的标签,并预测用户是否会流失,是否对某个产品感兴趣等,然后针对性地面向用户做精细化运营。
大多数情况下,我们会根据兴趣标签进行个性化推荐,如手机平台根据用户的兴趣爱好针对性地推荐 APP;根据业务标签预测运营风险、做 RFM 运营,如金融产品根据用户收入、职业稳定性等标签来判断用户是否会逾期等;根据流失预测结果对用户做全生命周期运营,在用户流失之前介入,而不是在流失后进行召回。
第三,助力个性化体验提升。
即人和商品的匹配效率,千人千面。
个性化推荐常用于电商场景,核心目的在于提升用户和商品的匹配效率,最终服务于用户粘性和转化率的提升。当内容、商品逐渐丰富之后,如何让每一个用户快速看到自己想要的内容或商品,「个性化推荐」完美解决了这个问题。
第四,数据与产品结合,助力产品附加值提升。
比如,通过对照片、文本、音乐等做内容聚类,形成特定内容的推荐。
在我们的手机相册中,可以通过图像识别形成一定的标签,可能是地点、人物等,基于数据分析做图片的聚类,进而和用户之间产生高度粘性;在音乐类型产品中,如果基于歌曲的相关性,自动给用户推荐歌单,那么用户使用效率会大大提升,用户对产品的信任和忠诚度也会随之增强。
从以上数据智能的应用场景中,我们可以概括成一句话: 在很多情况下,数据智能已不局限于“锦上添花”,逐渐变成了企业能否高效率运行、在市场竞争中胜出的关键因素。
数据智能的实现过程和落地实践:以「推荐」为例
现阶段,「推荐」已经发展成为一个比较成熟的应用场景,通过行为数据建立集市,根据特征挖掘引入行为特征,然后在模型训练中得到业务指标的预测,最后把根据每个用户特征生成的个性化列表传到用户端。
接下来我们一起了解一下在此过程中的核心注意事项。
1.理解业务是实现数据智能过程中最基本的环节
我们可以通过两个不同类型的产品做辅助理解。
1)母婴行业属于典型的全生命周期运营模式,备孕、孕期、宝妈和宝宝在不同阶段关注的内容和产品是完全不同的,母婴内容社区平台可基于后台数据分析、机器学习完成规模推荐,将会在很大程度上提升用户运营效率,实现精准触达。因此, 理解业务包含对产品形态、具体场景等的理解。
2)影视领域的推荐参考指标通常为“用户点击视频”,但在新用户阶段,可参考的数据样本较少,没有完整的样本供模型训练。此时,通过深入了解产品的使用过程,就会发现在各个类目推荐的时候,用户滑动视频的动作其实代表了用户当前的兴趣特征,如果把它引入到新用户冷启动的模型中,就能够产生较好的推荐效果。也就是说, 要精准定位用户的典型特征,作为模型计算的参考。
2.基于目标,选择合适的模型
在推荐的过程中,我们常用的模型包括:决策树、KMIS、线性回归等。当我们需要分析用户的使用健康度、分析用户的使用频次等,采用线性回归方式即可。也就是说要 根据目标场景选择合适的模型。
3.发挥行为数据的价值
选择了合适的模型之后,要将用户的部分关键行为作为用户特征。
如下图左侧,在某地图产品中,当用户在搜索框输入了部分文字,系统会自动预测用户要搜索什么地方,帮助用户快速定位目的地,成功完成推荐;但同时,某些情况下会产生“误点击数据”,即系统推荐给用户的内容并非用户目的地,用户“误点击”之后产生的数据为“无效数据”,即纯粹用“点击行为”做模型学习的话会产生无效样本。那么,这个时候,神策的会话功能就可以被引入到整个样本的筛选过程中,基于用户最终的目的地,关联其前面步骤中的“输入”与“点击行为”,就可以有效解决“无效点击”的问题。在这个过程中,行为前后的序列通常都是很重要的特征,要重点关注。
如上图右侧所示,深度学习在智能推荐过程中使用较多,其最重要的特点是建模用户行为的时序特征,此时模型就会把它当做训练的重要考虑点,同时保证用户精准识别,行为序列的时间戳记录不能混乱。
4.效果评估,多指标学习
就「推荐」来说,我们经常会建立一定的指标去训练模型,具体指标包含点击率、转化率等,同时做多维度划分洞察新用户的转化,其 核心在于选择什么样的目标。
我们可以参考某视频平台的场景:视频前后的广告推荐应该以什么为核心指标?如果以“人均点击次数”为核心指标,会导致“标题党”内容,这个时候有两种选择,第一,设计相对应的解决策略,第二,评估指标选择是否正确,如果评估指标为“视频播放时长”,那么得到的分析结果相对质量会更高。这就是指标选择的重要体现。
5.优化效果,数据分析助力
「推荐」上线后,仍有很长的分析迭代过程,在这个过程中,数据分析能力是算法工程师很重要的一个能力。
下图是为某款陌生人社交产品的推荐调优过程,其核心功能是「匹配」。
在匹配人率(成功匹配人数/点击喜欢的人数)方面,神策得出的数据值低于客户自建。这个时候,需要通过业务指标的拆解,寻求数值不一致的原因。
经过指标变形,我们得到这样一个公式:匹配人率 = 回关率 * 人均点击喜欢次数 * 匹配覆盖度。“回关”指的是用户点击“喜欢”后,得到的对方“喜欢”的次数。通过对比发现,在其业务形态中,神策是以“点击喜欢”作为核心指标进行计算,这就导致了大批量的优质用户因为其回关门槛较高,导致了回关率低、匹配人率低。通过以上洞察,神策数据及时调整召回模型的参数,以“匹配成功”为训练参数,得到的匹配人率远高于客户自建。
在这整个过程中,我们基于数据分析发现结论,以此驱动数据智能产品的优化。
6.产品层面持续改进
算法和模型不是万能的,当选择了模型、特征之后,在产品的 CPR 值达到了较高阶段的时候, 我们的业务指标不仅仅要通过算法的形式去实现,还要结合产品层面来持续改进。
比如,当用户通过 APP 搜索美食,除了可以推荐给用户饭店名称,我们还可以通过知识图谱的学习给出推荐理由,为什么这家饭店排行第一等,有助于用户理解排序结果,并引导用户深入查看。
在产品外形方面,虽然个性化推荐的效果较好,但曝光较低,这是因为大多情况下,个性化推荐栏目往往在产品形态里较弱的位置,这个时候就需要对产品流量分发层面进行改进,把更多的内容在产品外层直接曝光,提升平台的可能性。
在个性化海报方面,因为每个人的关注点不同,所以可以借助机器化形成个性化海报展示给用户,以此提升 CTR。
神策如何助力企业探索数据智能
在服务了 1500+ 企业之后,神策发现数据智能的关注者更多的还是企业内部的技术人员,对业务发展的影响有限。 究其原因,主要有以下三点:
1.数据质量不够高 ,导致智能推荐的结果和预测结果都不准确,无法为业务提供参考。
2.技术人力投入较低 ,对于整个行业来说,大部分模型的持续引进都依赖于头部公司的不断迭代,相对来说,中小企业在这方面缺乏长期的积累。
3.业务部门的参与有限 。业务部门对数据智能的关注度低,导致数据智能无法应用到实际业务过程中。
基于以上三大痛点,神策发挥的作用是什么呢?
首先,对于 数据质量 ,神策坚持“ 给客户带来价值 ”的工作原则,通过多种方式帮助客户提升数据质量。比如,多端数据打通,用户关联支持多对一、多对多,数据接入过程中强校验,专门的数据治理,把控交付质量,形成管理规范等。
其次, 产品化 ,神策已形成规模化的产品矩阵,包括神策分析、神策智能运营、神策智能推荐、神策用户画像、神策客景,功能涵盖基础的数据分析、打标签、健康预测、指标预测、个性化推荐等等。
其中,对于神策智能推荐,我们不仅希望带给客户一次性计算,更多地希望能够形成一个可交付的产品,我们可以看到整个推荐模型的运转过程,也可以保证一定的开放性,就是说我们业务人员可以对此展开洞察、调用,赋能业务实践,提升整体的推荐效果。
每个用户对于特定的业务场景,其模型训练标签都是一个单独的过程。如果我们想要将其规模化,需要抽象出各个模型预测标签,以此预测该用户接下来的业务表现。这也是神策用户画像在做的一件事情。
比如,某产品要预测用户接下来会不会购买该产品的会员服务。首先选定目标用户,可能是此前购买过但已流失的用户,也有可能是从未触达到的用户,但整体需要基于“决定性”特征去完成筛选,比如用户的属性,做过什么样的行为等,然后通过机器学习的方式为有可能购买会员服务的用户打上“业务转化”的预测标签。除此之外,在渠道投放上也同样适用。
最后, 以数据智能驱动业务发挥价值 。对于智能产品的交付,以「推荐」为例,我们不仅交付推荐的结果,而且以业务目标为导向,在最初的需求调研阶段,我们会主动跟客户沟通应该关注的业务指标,并以指标的提升作为交付目标。
以上为本次演讲全部内容,感谢大家的聆听!