UBDC全域大数据峰会:跨屏打通之后的数据链接
4月20日,UBDC全域大数据峰会·2016在北京举办。会议以“无数据不智能”为主题,除主论坛之外,分别设立了“数据化运营”、“数据营销”、“IOT和O2O数据应用”、“数据开放与发展纵横谈”四个平行分论坛。
Drawbridge总监、数据科学负责人在“无数据不智能”的主论坛上,分享了技术如何联结数据。李想分享了强账号体系和跨屏联结两个概念。
李想认为,强账号体系是封闭的,譬如腾讯账号在腾讯体系内是可行的,但是用户一旦脱离了腾讯环境。后面的情况就不得而知了。
而实际上,如果每一个用户都可能拥有很多设备,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。
李想在大会上分享了三个利用跨屏连接数据的案例,以下为李想在UBDC全域数据峰会·2016中分享的速记实录:
有什么最大的变化,我说应该是有各种各样的基于用户的互联网设备的促进,比如从最早智能手机开始,后来出现智能电视、智能手表,甚至有物联网,这种设备的出现对终端用户来讲是激动人心的事情,因为他们可以在任何时间,任何地方,用很多方式获取他们想要得到的信息。另外一方面,对很多企业来讲,这些大的互联网设备出现引起了一个新的问题,我们知道很多企业最终的目的是要把产品卖给客户,很多时候这个企业的产品跟客户所拥有的移动设备的数量没有关系。比如这是一个化妆品公司,他的任务是把他的化妆品卖给他的客户,他不会说他的客户是拥有3、2台电脑会比没有电脑,拥有2台手机的客户买的化妆品多。在这种情况下,用户获取信息的途径比较简单,报纸、电视,从现在看,这些渠道是一个非常粗暴,最原始的方法,它对客户没办法做个性化的推送。这也有一个好处,因为客户的意志力会比有限的渠道里,他做的事情非常简单,我把广告,投放到有限的渠道里去,就可以直接影响到这个客户的购买行为。
现在随着各种各样的移动互联网设备出现,用户的行为发生了翻天覆地的变化,首先用户获取信息的途径是千千万万,电脑、手机、平板,这是一个最大的变化。
从大的方面讲,应该有两种方式,另外一种是我花比较多的时间是基于概率的领域。首先是强帐号体系,开放的挑战,看用户是不是用同一个账户登录。我们总结一下,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。
下面从技术层面做一些相对深入的分析,首先把这设备把概念连接起来,它一定是一个大数据系统,唯一能够知道哪些设备是属于同一方法,我们把观察到的设备拿到这个系统来。比如举个应用场景,PC端跟移动互联网的连接,把我们能观察的PC端的标识和移动端的标识拿在一起,我们对这个数据做大量的沉淀、梳理、处理,两个设备之间的标识。换句话说,这相当于大海捞针的过程,整个系统的输出是比较少的数据量,但是它的数据一定是海量的数据。
举一个实际的例子,我们一个处理600亿次的系统。这个系统大概是怎么工作的?一般分成三个模块,第一个模块是海选系统,它把所能观察到的PC端和移动端的数据拿过来,我尽量产生一个有可能的配对,这是什么意思?这些配对有可能是属于同一个用户的,在海选阶段有两个特点,第一个特点,它处理的速度应用非常快,如果你处理速度赶不上数据进来的速度,会有很大问题。第二个特点,它对配对的质量有所要求适当的放松。但是我们希望属于同一个人的设备中尽量在海选阶段保留下来。第二个阶段是我们把海选的结果拿过来,进行精选的阶段。在这里我们会做这样的事情,我们会对海选的结果提取一些非常复杂的特征,我们会用相对计算量非常复杂的模型,他们所谓做这些事情只有一个目的,我们希望对海选的配对产生一个分,配对正确的标识分出的越高越好。我们可以做一些其它的处理,比如排序等等,所以目的只有一个,尽量把错误的配对删除,或者打一个很低的分,把可能属于同一用户的配对的分值提上去。
在一般这种情况下,对我们将近一半的客户,精选的量的结果就足够了,他们需要的东西很简单,比如PC端跟手机的配对,但是对我们另外一半客户,他们需要更苛刻或者复杂一些,你能不能对我们的客户所有移动的标识,我们需要做的聚类的处理模块,我们把前面两块的结果拿过来,先产生一个图,如果你做图的话,肯定会有结点。这里面结点是各个设备的标识,比如PC跟移动设备的标识。
有这样的结果以后,我们下面谈具体的应用的例子。第一遍是我们要做完整的用户画像,这是真正的用户,但是他的照片是我加的,我不知道这个用户长什么样。我们知道用户的地理位置,在纽约,他的年龄、收入情况等等,我们也知道他线下的一些活动,通过我们这个数据打通,我们掌握了这个用户在PC端、移动端,以及智能电视上面的画像,通过这个分析,我们会发现这个用户在这三个不同设备的画像,他们都是提供了一些非常独特的信息,比如我们看到这个用户是一个服装设计师或者搞艺术的工作者。如果你看用户在移动端的画像,会发现这个用户是相对比较时尚,有很多社交的活动,对游戏有一定的偏好。如果我们看这个客户在电视上的画像就更有意思,这个客户虽然是做服装设计,他特别喜欢跟户外有关的频道,比如发现频道等等,这实际是一个更好的例子,有可能把一个服装设计师跟喜欢户外的人连接在一起,对用户有全面的了解。
有了这个画像之后,具体的应用就出来了,今天我大概会介绍三个具体应用的例子,第一个是,定义延伸,最后一个跟大家分享我们跟智能电视互动的应用。
这个是我们在跨屏定向里比较好的案例,跟美国的信用卡公司合作。广告投放的渠道主要是在PC端,原因很简单,使用信用卡的话,你要填比较复杂的表格,而且这个对用户人群是有一定要求的,比如他对你的性别、年龄、家庭构成等等,最重要的是他对你的收入是有一定的要求。而且还有一个情况,在过去几年里,在PC端能满足他要求的货客,逐渐减少,大家也很奇怪,过去几年美国经济并没有几年变差,那用户怎么会变少呢?原因很简单,客户是在从移动端向PC端转移,这数量自然就减少,我们的解决方案很简单,打通完以后,我们把移动端的用户画像附加你在PC端的用户画像,对完整的用户画像做投放,申请信用卡的用户和被批准的用户增加25%,这个事很显著,每申请一张信用卡,给公司带来的收益是很大的。
第二个案例地理延伸的案例,我们发现客户到他们门店那里去并没有做购买和转化的工作。我们更大的解决方案,你把到你门店的用户的手机信息告诉我,我拿到这客户的手机信息之后,做了一些处理,用户从移动端转化的概率提高了600%,非常可观。
下面是我们跟智能电视的合作,这是我们跟一个游戏公司合作,使得他们游戏量上升了几分之几百。
最后,用户隐私的保护。在美国,它对用户隐私保护的非常严,从法律上,它要求很多企业对客户必须提供选择性排除这样的方法,我不管你广告再精准,你别来烦我。
企业的话,我们讲最后一个例子,我们很多客户企业有很好的第一方数据,这第一方数据是高质量的,企业用这些数据做很多事情。但是不幸的是美国规定这第一方数据是不能拿出企业的,怎么办?我们把技术和解决方案直接部署到企业内部,你用你的数据和我们的解决方案做跨屏的连接,过几个月之后,他们跑过来说你们做的这效果不错,就是规模比较小,能不能帮帮我们。这是另外一个解决方案,把我们搜集过来的第三方数据在法律允许的范围内,把这同时给我们的企业客户,他用他的第一方数据,加上我们第三方数据,加上我们这程序,在他内部进行部署,用户很高兴,效果也很好。