央视网大数据名人讲堂丨刘鹏:数据变现的秘密
各位观众大家好,欢迎大家来到央视网的《大数据名人讲堂》,首先呢,我做个自我介绍,我叫刘鹏,一直在互联网公司从事流量和数据变现方面的工作,所以今天我给大家演讲的题目是《数据变现的秘密》。那么这个题目背后,我们是想给大家揭秘一下在互联网行业里如何把免费产品形成的流量、数据,还有品牌价值这些核心资产,通过一个完整的商业化体系,把它变成钱的这么一个过程,这个过程我们从术语上叫商业化,相信大家如果不熟悉互联网的人可能没听过这个词,但是希望大家听完我的讲座以后,对互联网数据和流量变现的秘密有一定的了解。
EMBED>
好,我们开始,首先因为今天的时间比较短,我们只有45分钟的时间,可能没办法把商业化体系里所有的内容、所有的产品跟大家详细地介绍出来,所以如果大家对这方面有兴趣,可以参阅我们在去年出的一本书叫《计算广告》,这本书是互联网商业化体系方面,从全世界范围来看,是目前唯一的一本出版物,帮大家揭示如何利用数据和流量进行互联网的变现。
好,我们从哪儿开始说呢?从这张表开始讲。这张表的内容我们在里面列出了中国和世界上主要的互联网巨头在2015年的收入占比,首先我们看这个Alphabet,它是谷歌的母公司,大家可能知道,去年它的总收入达到800多亿美金,那么广告收入占到多少呢,我们看到它占到了700多亿美金,这个占比接近90%,也就是说在互联网最大的商业巨头当中,那么广告收入,也就是我们说的商业化收入占到了它的绝对优势地位。
另外一家国际巨头是Facebook,近两年来在移动广告方面增长非常迅猛,那么它去年的收入180亿美金,其中大部分是广告营收,我们再来看中国的几家广告巨头,腾讯、阿里巴巴和百度,互联网巨头。腾讯去年的收入是这样子,总收入达到接近160亿美金,那么它的广告收入有点不太好算,为什么这么说呢,在财报里直接体现的广告营收是27亿美金,但是腾讯还有很大的一块收入是所谓游戏收入,但是腾讯的游戏收入又分为两块,一位是腾讯自研的游戏,另外一块是腾讯进行的游戏联运,什么是游戏联运呢?就是其他人做的游戏放在腾讯的平台上进行分发,这种我们叫游戏联运。实际上这种游戏联运本质上仍然是广告业务,背后用到也是广告平台,当然在腾讯的整体收入构成里,游戏部分到底有多少是联运的收入,有多少又是自研游戏的收入,这个数字我不得而知,所以我在这个表里画的是这样,就是腾讯的收入,广告收入占比应该是介于17%和55%+17%这样一个比例之间的一个数字,应该也是很大的一个比例。
那么阿里巴巴,大家知道是个电商巨头,但是我们会看到,阿里巴巴在去年122亿美金的收入里,广告收入应该占到七八十亿美金,也是占一个绝对的大头。百度就不用说了,102亿美金的收入里,广告占了绝对的优势地位。从这个图我相信大家从数字上会有一个直观的认识,就是互联网行业实际上我们大部分收入是来自于广告,当然这里的广告并不是我们传统意义上认识到的线下广告,因为它主要是通过一种付费内容的载体,对流量和数据进行变现,它是一种产品驱动和技术驱动的数据变现生意,与传统广告有非常大的差别。那么今天我们就用这短短的45分钟,来帮大家解读一下,到底这样的数据变现体系是什么样的,也希望大家有一个基本认识。
好,我们刚才说到商业化产品。那么商业化体系在互联网里都负责解决什么样的问题,我相信大家是不了解的,因为大家用过很多的互联网产品,比如说你用过搜索,用过社交软件,用过电商,但是这是你看到的用户产品的一面,那么它背后的变现的一面,也就是商业化产品的一面,我给大家举一些例子,让大家有感性认识。商业化产品相关的问题,我们研讨的问题是非常多的,比如说商业模式探索,我这举了一个例子,我们会考虑这样的问题,比如电影它是一种边际成本很低,但是又能够大量地传播用户信息的这种典型的商品,那么在我们互联网人看来,电影这个东西绝对应该是将来是免费的,那么如何探索一种合理的商业模式,把电影变成免费的,能够获得更好的用户体验和更多的收入,这是我们商业化体系研究的一种典型的问题,也就是商业模式的探索。
那么更常见的问题,大多数媒体都碰到的问题是流量变现和数据变现。流量变现的问题很多,比如说现在很火的互联网电视,互联网电视的厂商除了获得销售收入,他其实还获得了用户流量,那么这些流量如何变成钱,这也是我们商业化体系研究和实践的关键内容。
另外一个问题,也是我们今天重点讨论的是数据变现。我举一个例子,比如说现在在移动的, 移动互联网 上,室内定位技术是一项快速发展的新技术,那么这样的室内导航和室内定位技术,它除了给用户提供方便以外,实际上他获得了大量的有价值的数据资产,那么这样的数据资产怎么变成钱,也是我们商业化体系重点研究的内容之一。
当然,商业化体系还有另外一个重要的侧面,就是关于用户增长。什么是用户增长呢?就是我利用商业化体系,换句话说,我通过购买广告或者购买付费位置这样的方式获得我的流量。可是不同的广告渠道、不同的流量渠道带来的用户,它的属性、它的变现能力都是有很大的差别的,我们一定要用一个基于数据的运营体系,把这样的流量精细加工,在商业化体系内把它完善起来。所以比如我举个例子,像电商它会从各种渠道获得多种流量,那么这些流量带来的转化有什么样的归因关系,如何用数据来判断各个渠道的价值,这就是我们今天所说的用户增长这样一个互联网的重要的数据应用话题。从这些应用当中,我相信大家能够大致地了解互联网商业化体系到底在关心和研究什么样的问题,如果将来大家碰到有关的问题,也知道怎么样借鉴互联网的经验去解决你自己的问题。
好,我们进入正题,我们今天谈的内容从哪儿说起?从互联网的免费模式说起。免费是互联网在商业模式当中一个非常重要的基调和主轴,那么也有很多大佬对免费模式给了自己的解读。不过在我看来,大多数人的解读都不彻底或者说不系统,他们在碰到软件的免费、碰到硬件的免费的时候给的解释都不太一样。其实我们给免费做了一个非常简要的定义,那么大家看我们这个PPT里这句话,能够个性化传播信息的商品售价都会趋向边际成本,这是我们对于免费模式的一个基本认识。也就是说,免费模式的前提是你的商品本身不是个死的东西,是能够传播信息的,比如说我们这个桌子这就不可能成为被免费模式改造的东西,因为它没有信息可以传播,但只要可以规模化、个性化传播信息,实际上我就有了后向边际的通路。有了后向边际的通路,那么我前向的产品就可以没有利润。我们今天看到这样的例子非常非常多了,比如说我举几个例子,像我们今天在用的所有的网站、所有的APP,那么都是免费的,收费的已经非常非常少了。这是为什么呢?因为这个网站和应用,它每多服务一个用户,所付出的成本基本是零,换句话说他的边际成本基本是零,既然边际成本是零,按照我们免费的定义,它的售价就应该是零,所以你看到它是免费的。
那么今天我们还会看到大量的所谓互联网概念的手机和电视,那么这些手机和电视实际上它的售价基本上等于它的量产成本。量产成本我们知道其实就是它的边际成本。也就是说,这些卖电视和卖手机的厂商并没有打算卖电视来挣钱,这是很有意思的一点,那么他的钱从哪儿挣的呢,当然是因为由于他能够规模化传递信息,这使得我在获得用户的同时,获得了一些其他的资产,这些资产可以通过向广告商出售的方式来变现,也就是我们所说的后向变现,所以免费模式的目的跟大家总结一下。我们是通过免费,换句话说,用等于边际成本的售价来出售商品获得用户,那么再通过从用户身上得到的其他资产来变现,这是免费模式的本质。
好,但我们来看一下,在互联网的免费模式下,到底我们能够积累哪些可变现的核心资产?换句话说,我们赚了吆喝,是吧,赚了用户的眼球,但是我们还要挣钱,什么东西可以挣钱呢?实际上我们总结下来,互联网可变现的资产不外乎以下三项,我们用一个金字塔来表示,先看这个金字塔的塔基,塔基呢,我们把它叫流量,traffic,这个事情是最简单的可以直接变现的资产。什么是流量呢?有人在用你的网站,在用你的APP,那么除了你放他感兴趣的内容以外,你还可以放一些跟这些内容相关或者跟用户的兴趣相关,但是是有人付费让你放的内容,这些内容我们叫Sponsored content,付费内容,或者就叫做广告。那么在正常内容里夹带付费内容这样一个逻辑,就是流量变现的基础。
再往这个金字塔的中部来看,除了流量,今天我们还认识到互联网的公司还有一项非常重要的资产,就是数据,数据有什么价值呢?简单地说,我们通过数据可以知道用户的偏好,那么根据这些偏好我可以提高付费内容的转化率,这是数据变现的一个基本的原理。数据是怎么得来的呢?由于别人在用你的应用,在用你的APP,用的过程当中你会发现他会留下蛛丝马迹,比如说他搜索了一些词,比如他上了一些网站,那么你会知道他的用户属性,也可以猜出他的一些购物偏好,根据这些购物偏好来投送相关的付费内容,比我没有任何的指导来投放付费内容,它的效果要好很多,也就是说单位流量的转化效果、转化能力是被提升的了,数据实际上起到这样一个作用。
金字塔的塔尖是我们从今年开始着重关注的一点,除了拥有流量和数据以外,很多互联网的媒体甚至自媒体还拥有一项核心的资产,就是所谓的品牌价值。品牌价值的基本原理我们可以这么解释,它是利用用户熟悉的形象来提高付费内容的关注程度。这个原理我们后面会有一张图来具体的解释。
好,我们今天先来看一下,现在先来看一下,流量变现和数据变现为什么与商业化体系是天然地结合在一起的,也就是说为什么我们通过广告渠道,就很容易的把流量和数据变成钱呢?那么我在这儿画了一个图,大家可以根据这个图理解一下这个原理。这个图的左半部分讲的是流量变现,这个非常简单。如果你有一个网站,你的网站每天有十万人访问,那么我在上面放一个广告位,我这个广告位的报价,咱们比如说是一万块钱,这就是我流量的价值,非常容易理解,对吧。
可是呢,在数字化媒体当中大家很快就发现,这种流量变现的方式并没有最大的发挥数字媒体的特点,或者说也没有发挥数据的特点。为什么呢?我们看我们这儿举的这个例子,这个流量变现的时候,我卖一万块钱放的是一个剃须刀的广告,可是这个剃须刀的有效受众是哪些人?潜在有可能买剃须刀的人,不外乎是男性受众,因此我这里边有一半的女性受众实际上是被浪费了的,这个原理大家都非常容易理解,那么怎么办呢?我们看这个图的右半部分,我们实际在商业化体系里当中践行的商业模式是这样子,我只把它的有效受众留给这个客户,比如说这个剃须刀客户,我仅仅把男性的一半流量留给它,那么对于这个客户而言,它的有效受众的触达并没有变少,因为它的客户都是男性的,但是由于我只给他一半流量,我可以给他打个折,比如原来这个广告位全买的话,卖一万块钱,现在你只买一半男性的流量,我卖给你是六千块钱。
可是对媒体来说,我还剩下一半女性的流量,是吧,这个女性的流量,我可以把它卖给一家做化妆品的广告主,那同样,化妆品的广告主它的受众基本是女性,通过这样的人群的拆分,我们会发现,对媒体来说,我挣到了更多的钱,原来我挣到了一万块钱,现在通过拆成两份,每份收六千的方式,我挣到了一万两千块钱。对于广告主而言他也是满意的,因为他只用花六千的成本,就获得了原来他要花一万成本才能触达的所有的有效受众,所以这是个双赢的事情。
那么这个双赢的事情,实际上天下没有免费的午餐,既然是双赢,一定有新的资源加入到这个过程里,那么这个资源是什么呢?我们看下面的这个等式,流量价值的一万元加上什么变成了最后收入的一万两千元呢?实际上多出的两千元是数据的价值,这就是我们讲的数据变现的秘密。虽然是很简单的原理,但是放在这样一个具体的例子里,大家肯定还是觉得很有意思的。
为什么说它是数据的价值呢,因为如果我仅仅有这个概念,但是我并不知道我的每一个受众是男是女,那么这两千块钱我是完全挣不到的,换句话说,我由于有了每一个用户的性别数据,结合我的广告系统,我就多挣了两千块钱,这就是为什么我们说商业化体系或者说广告体系,能够一站式的将流量和数据变成钱,希望大家听完我们这个讲座,对这件事有充分的认识,也把今天互联网行业的商业化体系、广告体系跟传统广告行业有个区分,因为传统广告行业基本上是我们这个图里左半部分,有一个广告位,你把广告放上去,但互联网做的主要是右半部分,它的核心并不在于有一个广告位,把广告放上去,而是在于利用数据做精细的加工,提高单位流量变现的能力,所以它是完全是一个数据驱动的行业。这点大家要有认识,因此大家记住一个观点,数据变现和互联网广告是有非常天然的内在联系的。
我们刚才还说到一点,在那个金字塔的塔尖还有一种互联网的核心资产叫做品牌属性。这个品牌属性的变现实际上跟流量和数据又不是一回事了,可是关于这一点的清晰认识,我觉得至少在今年大家才形成,为什么今年会形成这个认识,因为今年大家知道是直播和网红的元年,大量的自媒体、大量网红,都在考虑怎么把自己的粉丝、把自己的流量变成钱。那么大家会碰到一个问题,比如有很多朋友会开这个微信公众号,微信公众号下面可以放微信的广告代码,换句话说你有流量你是可以通过微信把它变成钱的,但是你会发现这个挣的钱会非常非常少,相比他们自己去接软文或者其他的方式变现,这种通过流量变现的方式得到的钱可能只有十分之一甚至更低。
那么为什么他自己接的软文可以挣那么多钱,而放这个广告只能挣那么一点钱,就是因为我们传统的广告体系考虑的是前面的两点,流量和数据的变现,但是恰恰忘了怎么样把这个IP或者把这个自媒体的品牌属性加以变现。品牌属性变现的原理实际上我们今天还在探讨,但是我这画了两个图,我大概能够跟大家解释一下,品牌为什么会产生议价。左边这个图是我们在互联网营销里常用的一种方式叫做Remarketing或者叫做Retargeting,中文叫做再营销。再营销的原理这样,如果你上过一个电商网站,或者你上过一个其他的网站,那么你并没有买东西你就离开了,那么当你到达其他的媒体网站的时候,我知道你这个人曾经对这个品牌发生过些关注,那么我可以再给你推送这个品牌相关的广告,你会发现用户由于对这个品牌已经有了一定的认知,有了一定的熟悉,那么他再次点击这个广告,乃至发生后续转化的可能性会非常地高,这件事是早已在互联网营销界被验证了。
同样的道理,我们可以来解释为什么一个大家熟悉的形象,可以获得更高的广告回报。比如说右边我们举这个例子,刘建宏是大家都很熟悉的一个大IP吧,一个公众人物,那么大家在看到有一幅画面或者有一个广告,有刘建宏的形象出现的时候,先不说这个广告宣传的商品是什么,你会下意识地去关注这个广告,这个关注力是由于刘建宏这个熟悉的公众形象带来的。换句话说,由于公众形象是熟悉的,所以带来了大家对付费内容的高关注,这件事是品牌属性带来的高关注,换句话说,它也是一种互联网可变现的资产。
这种例子我相信大家能举出很多,如果大家有在广告主工作的朋友,其实最近也会有这种认识,比如同样的是一个,假设是一档综艺节目,那么我在综艺节目的视频网站买它的前贴片的广告,就是在这个综艺节目开始之前放的15秒这个广告,和在综艺节目开始的时候,由著名的主持人他说一句本节目是由某某某赞助的,这个话可能只有3秒,可是实际我们看到的结果,这3秒的这种这个广告它的效果远远好于前面15秒的贴片,这就是品牌形象带来的高关注。
总之,这个品牌属性也是咱们互联网可以变现的核心资产,而且随着网红和直播的兴起,我相信这是未来两年大家研究的一个主轴,它既不同于流量,也不同于数据,但是怎么跟数据体系结合起来用一种定量的方式来优化,这是我们今天仍然在探索的问题。
好,我相信讲了这几页,大家应该对我们商业化体系在做什么有个基本的认识了,所以这儿我给大家简单地总结一下这些观点。首先大家想了解互联网,那么除了了解各种各样的用户产品,非常重要的一点就是要了解商业化体系。可以这么说,我们刚才给了几家巨头的数据,大家可以看出来,整个商业化体系当中,以广告为载体的这样一个商业化体系,它支撑了我们互联网行业的大半壁江山。我可以大概的估计一下,应该这个行业里有70%左右的收入是来自于广告的。所以你如果不了解商业化体系,你想深入了解互联网,我觉得是没有可能的。
那么第二点,大家要认识到互联网的商业化体系,实际上是一种流量、数据和品牌属性变现的生意,不是简单的媒介售卖。从大数据领域来看,互联网商业化体系也是大数据领域最早成熟的应用之一,那么上溯到2006、2007年左右,我觉得规模化的利用数据,去提升广告的收入能力,已经是成为当时业界非常重要的一个主题了。从今天来看,我也认为大数据领域唯一形成规模化营收的应用,应该说是互联网的广告应用,或者说互联网的商业化体系,当然大数据其实有很多其他的应用,是吧,这些应用也都在蓬勃发展。我这儿只是指的到目前为止规模化最好的是商业化体系。
今天我们当然只是讲一些概念,但是这个商业化体系或者说计算广告体系是非常复杂的一个体系,它要综合利用到计算技术、用到心理学、经济学、营销学,各方面的知识,所以是个综合学科。我举一个例子,像去年我们有一位诺贝尔经济学奖的得主约翰·纳什去世,那么约翰·纳什他所研究的博弈论的这个体系,实际上在工业界当中,最成熟的或者最规模化的应用就是在我们的竞价广告体系里。
这个商业化体系其实涉及到不同的应用,我这儿画了一个图告诉大家这个商业化体系的闭环都包括哪些东西。那么这实际上涉及到一个互联网产品它的全周期,我们从这个图里来看,如果你有一个产品,从上面来看,那么用户在你的网站或者IP上会产生浏览行为,是吧,如果有浏览你就可以去夹带广告,那么就有了广告展示。如果用户对这个展示感兴趣,那么他就会点击,点击以后当然就把你的这个广告的流量又带给了下家,带给了你的广告主,如果他进一步对广告主的产品感兴趣,就会产生转化,这个转化就会使得这个用户成为广告主的新用户。当然后续你还要去通过数据分析和优化用户的留存,如果用户的留存变好了,你这个新的广告主又产生了流量,他同样可以通过这个流量去变现,所以在这个图里,这个大闭环里,我们会看到几类的问题,这些词如果大家对于商业化体系感兴趣,对互联网感兴趣,你会经常地听到有人说。我们在这个图里把它解释一下,首先从用户的浏览到广告展示,到广告点击,也就是说我有流量把它变成钱,有数据把它变成钱,这个过程最简单叫做变现,我们英文叫Monetization,这是站在媒体角度去看商业化体系。
从广告展示到广告点击到转化,这么一个中间过程,那么这是我们今天讲Advertising,就是在互联网行业讲Advertising这个词它指的是中间过程,它不是依附于媒体的,它是一个第三方的中立的加工过程。从用户的转化再到优化用户的留存,这个过程我们今天在移动互联网,有一个词叫做User Acquisition,就是UA,用户获取。那么从用户获取以后进入你的站内如何通过数据化的方式去运营,这是我们讲的数据化运营的问题。所以总体看这个商业化体系,它实际上把流量变现、数据变现、广告、用户获取和数据运营这些环节都在一个大闭环上完美地给串接起来了。整个这个闭环从右半部来看是偏向于媒体的角度,或者我们说一个术语吧,偏向于供给方的角度。那么这个媒体的角度,我们简单来说都把它叫做商业化。如果从左半部来看,偏向于广告主的角度,那么这部分我们今天有一个非常时髦的词,叫Growth hacker,叫增长黑客是吧,利用数据的办法去拉新,数据的办法去提高留存。整个这是我们商业体系的一个大闭环。
我这画了一个图,给大家一个直观的认识,就是我们商业化体系怎么直观地去解释它。可以这么说,我们的商业化产品,主要是我们的广告产品,还有相关的像CRM其他的一些产品,它就像我们这个体系的一艘大船,它是整个这个体系的承载者,业务落地的关键是在这个商业化产品体系。可是这个船实际运送的货物是什么呢,实际上是数据,我们这个不管船的载体长什么样,不管广告长什么样,实际上我们在核心去加工和变现的内容,是用户的行为数据。当然这里面要想把用户的行为数据变现得好,我们要用到大量的智能技术,那么这个智能技术也就像这艘船的船长,它是引领这个船高速的前行的关键。因此在这个商业化体系里,商业化产品、数据和智能技术是一个完美的统一,我们只有把这三点都研究清楚了,那么在商业化变现和用户增长这两方面才能够真正达到互联网的先进水平。
这有一个图我没打算细讲,这是一个我们在变现领域非常著名的图,就是商业化市场的格局。大家会看到,从左边的广告主到右边的媒体,实际上我们今天在互联网广告当中,不是说广告主去媒体那儿签个合同,就把广告买回来,它中间经过了多层的加工和交易过程。我们今天不去讲这些加工和交易的细节,但是大家要看,我在这个图里面画了两个大框,上面这个框所有的这些公司都是在从事广告交易的,这广告交易又分了很多层,如果今后有其他机会我们可以再讲这方面的东西,关于供给方的产品和需求方的产品。但总之这些公司,上面这个大框的所有公司,它真的是在跟广告发生关系,当然它本身不一定是媒体,也不一定是广告主,可能仅仅是一个中间的加工者,可是这个图里真正有意思的是下面一块,就是我下面画的这个方框,数据加工和交易这块。就是在这个市场里,有很多的公司,实际上你发现,它首先并不是广告主,也不是媒体,甚至它也不从事任何的广告买卖,它只从事数据的收集加工和交易,但是实际上这些公司是我们广告行业或者商业化体系当中真正的支柱性的公司。由于这些数据体系的存在,它使得我们的变现能力越来越强。
大家会觉得在这个图里边广告主买广告是不是比传统行业要复杂呢,要复杂很多,但是由于有数据的支撑,这个复杂它是有产出的,媒体在用传统的方式卖出广告,比如说一个广告卖一块钱,通过各种数据的注入,通过各种广告产品的加持,最后在广告主那儿能挣到多少钱呢?那么如果按照世界上的先进水平来看,大概是个1比3的关系,就是一块钱的媒体资源,由于数据的注入,可能最终的变现价值是3块钱,也就是说这里面数据和品牌属性带来的议价已经超过了流量本身的价值,这也是这个体系最有意思的一点,也是我们今天为什么这么关注大数据的一个核心的出发点。
这个图的上方,当然我还给了两个专业性的名词,就是这个图里面因为有很多层的公司,那么如果它偏向于广告主一侧,倾向于给广告主获得更多的利益,那么我们就把它叫做需求方,如果它是偏向于给媒体带来更多利益,我们把它叫做供给方,这个词如果大家熟悉金融的朋友应该都很熟悉,因为这些词我们基本上就是从金融行业给借用过来的。总之这个图希望大家了解一个观点,就今天如果大家还有人在讨论Big Data,大数据到底能不能挣钱,应该怎么挣钱,我认为这是一个非常过时的问题,也可能是对我们行业还不够了解,至少在商业化体系当中,在广告体系当中,数据规模化的加工和变现,不仅仅已经成为现实,而且它已经成为一个巨大的市场,这种数据化的广告变现,在去年中国市场,它已经线上的,基于数据的广告已经超过了其他所有广告的总和,已经占据了中国广告市场的大半壁的江山,而且将来它的增速是远远超过其他传统广告行业的。
其实说到这儿,我相信大家对互联网的商业化体系和广告体系从概念上应该有了一个清晰的认识,就是我们用数据变现,利用广告做载体,利用智能技术做驱动力,这是我们今天在商业化体系里大数据的三架马车。但是我特别要用几分钟给大家讲一个反面的事情,就是我们今天在用数据,实际上我们会碰到很多的数据隐私的问题,如果不解决好这些问题,我相信将来的数据利用和数据变现会碰到非常大的困难。关于数据隐私的问题,我们的认识实际上也是说有几个阶段的。
首先在最早的阶段,关注用户的数据隐私的主要的国家是欧盟那些国家,欧盟有一个A29这个委员会,它对数据的隐私问题,还有用户的其他隐私问题做了非常深入的研究,这个委员会主要是负责隐私保护条例的一些制订,当然它不仅仅是限于互联网了,也包括线下的很多数据隐私问题。A29当时给了我们几个非常重要的原则,这些原则在今天看来仍然是很有效,首先他告诉我们Personal Identifiable Information,就是所谓的PII,这种数据我们是不能用的。什么是PII呢,就是如果有些字段你拿到这个数据你就很容易的找到这个人,那么这样的数据是不能用的,我举个例子,比如说有的人拿到你的电话号码,那么他就可以给你打电话,有人拿到你的家庭住址,他就可以上门给你做推销,拿到邮件,他可以给你发垃圾邮件,是吧,像这样的信息我们都把它叫做PII,这种PII在欧盟的标准是严格禁止使用的。中国有一个词叫脱敏,跟这个事有一定的关系。
这个原则我们觉得非常好,另外它还有一个原则就是用户,这里边实际上有一个商业伦理和道德上的悖论。PII我保证你不用,但是你日常的行为数据,比如你搜过什么词,买过什么货物,其实我用户也没有让你用,那么你为什么能用呢,如果我们一定要要求用户允许网站来使用这个数据,实际上这会陷入非常无休止的争吵当中,那么这A29其实给了一个聪明的解决方案,什么解决方案呢,用户你可以不让我用你的数据,那么大家会看到,国外如果大家看到一些广告的话,它右上角往往有一个小的i,一个小三角里边写了一个i,你点那个小三角进去,就是一个页面告诉你,我这个广告或者我这个性化系统是收集和利用了你的哪些数据,当然如果你觉得我很不Comfortable,我觉得我的数据不应该被收集和使用,那么下面有一个按纽,你点那个按钮,你的系统就,他的系统就不会再记录和使用你的数据了。这种方式为什么很聪明呢?首先它避免了我们在道德和伦理层面的讨论,用户有权利决定自己的数据不被网站来使用。但是它对我们的商业影响又不大,因为实际上对这件事感兴趣,就关心自己数据有没有被使用的用户是非常少的一部分,可能只有1%,所以这实际上也没有什么影响。
第三点,这个A29还要求不能长期保存和使用用户数据,除非你有特殊的要求,用户同意我长期保存,一般的数据,即使是用户没有说不让你用,那么你在使用了,我记得是18个月,18个月以后,那么这所有的数据都必须严格地从你的服务器上删除,这实际上是避免一些管理风险。如果你大量的数据,不论你存在磁带上还是存在什么地方,只要在你的库里就越积越多,总有一天由于管理上的问题,它会有大量的泄露的可能。这是我们对数据隐私最早的一种认识吧。
那么后来到互联网时代,大家突然发现,隐私问题远远比这个复杂,复杂在哪儿?我们举这么一个例子,如果你在有一天在你单位的会议室里发现了一张人事留下的表格,这个人事表格当然它把已经进行了我们说的脱敏,把姓名、手机号都去掉了,可是你如果发现这个表格里有某某人,比如他是多少岁,哪个部门的,家住在哪个区。那么大家想想这个场景,其实你很容易去猜出来这个人是谁,换句话说,如果我跟某一个人是线下的熟人关系,我对他有一些背景信息的了解,在这种情况下即使不给我他的PII,不给我他的电话号码,不给我他家庭住址这些关键信息,我从其他的一些零散的信息拼起来,我是能知道这个人是谁的,这个事挺可怕的。那么你想在刚才那个例子里,如果你拼出来这个人是谁,假设人事那张工资表,那么你就知道了这个人挣多少钱。
所以今天我们关注的数据隐私问题,实际上我们发现一个问题,就是熟人之间的隐私,它替代了陌生人之间隐私,已经成为一个最大的顾虑,而熟人之间如果他能够了解你的隐私,并且他有恶意的话,你会发现它可能带来的伤害远远超过陌生人。
实际上前两年还有一个例子,大家有兴趣可以去翻一番,有一位清华的同学是王珞丹的粉丝,那么她在对王珞丹有一些背景信息了解的基础上,通过翻王珞丹的微博,看她的每张照片,看他发的内容,通过推理的方式得出来王珞丹住在哪个小区,住在哪个楼,几门几号,最后的结果很准确。王珞丹也回应也承认了,当然这个人并没有恶意,他只是个追星的行为,但是如果他有恶意,你想其实他的影响是蛮大的,其实这件事本身的影响也不小,后来好像王珞丹微博上说,虽然她知道这个人没有恶意,但她还是因为这事搬了家。所以你会看到,在有背景信息的支持下,熟人之间的隐私是我们碰到的一个最大的问题。
那么再到互联网的真正的数据场景下解读这件事,你会发现它的问题会变得更复杂,为什么呢?我们还有一个例子跟大家讲讲。这个例子是在若干年以前吧,五六年以前吧,Netflix,就美国的电影网站,它举办过一次非常轰动的推荐比赛,就是给你一些人的观影记录,然后再给你一部新片子,你判断这个人喜欢这部片子可能性有多大?应该打几分,这是这个电影网站非常核心的一个实际的应用了,它把这个任务放出来是希望大数据的高手都来帮他解决这个问题,之所以轰动,因为这个比赛的奖金非常高,当时100万美元的奖金。当时是我们的一位同事拿了100万美元的大奖。
为什么它跟隐私有关系呢?就这个比赛里发生了一个黑天鹅事件,有一个参赛者拿到这个数据以后,他阴差阳错地正好看到了一条数据,这条数据当然Netflix已经对它做了脱敏,所有的PII是不在的,甚至我们刚才前面讲的那些Course Identify那些问题他也解决了。但是他看到这个人,去年某月看过某一个片子,评价是3分,去年某月又看过另外一个片子评价是5分,把这些行为串起来,脑子里第一时间就反映出这个人一定是我的同事,大家可以回想这个场景,你会跟你的同事经常交流,我们看什么片子,评价如何?而且每个人跟每个人的观影记录都不可能一样的。所以他看到这个记录很明确地反映出这就是我的同事,他拿这个记录找他的同事,一看,同事说,还真是我,问题在哪儿呢?除了这些片子以外,还有若干部片子是他们之间从来没交流过的,那么这几部片子都是跟同性恋相关的影片。我们不太想做过多的猜测,但至少说明一点,就是他的同事并不愿意向他透露他看过这些影片,这些事情是他的隐私,那么这个同事看到这个事情当然很恼火,为什么Netflix拿这样一个数据拿出来做比赛,泄露了我的隐私。
怎么解决呢?Netflix回去商量了半天,没什么解决方法,所以这个比赛进行了一届就不办了。这件事给我们非常大的启示,互联网的行为数据它真正的隐私风险在于,由于每个人的行为数据是非常非常稀疏的,我们就拿观影记录这一件事来说吧。我觉得如果咱们在整个海淀区来把所有的人观影记录拿出来看,可能都找不来两个人是相同的,除了有一部分人是完全不看电影的,把这部分人排除出去,只要看过电影的,我相信把看过什么电影、什么时间看的和评价如何,这三个维度的指标拿出来,我认为每两个人都是不同的。那么换句话说拿到这样一条记录,如果你是熟悉这个人的一个朋友,我是有办法把这个人找出来的。这也就是说,在稀疏的行为数据和熟人对背景信息了解的这样一个基础上,隐私的问题变得是非常非常严重的。
当然我们的业务不可能因为有这样的问题存在就停滞下来,因为今天利用数据,利用大数据去解决互联网里的各种问题,已经成为不可逆转的历史潮流了,这就像我们今天看安全问题一样,我们不可能因为你的电脑有可能中毒,就停止生产电脑,同样今天我们不可能因为有隐私问题的存在,还有些没解决的问题,就停止使用用户数据,但总之,大家要了解到这个问题是客观存在的,而且有很大的挑战。那么进一步说,计算广告也好,个性化推荐也好,这样深度的利用用户的数据进行推荐的系统,深度个性化系统它也有隐私安全的风险。与此相关的也有些前沿的研究,关于差分隐私的题目,我们今天就不多谈了。
总之要给大家一个概念,我们利用数据是非常好的,但是在今天看来,隐私也是一个不可忽略的问题,而且由于今天它还没有全面的爆发,有可能是大数据头上的达摩克利斯之剑。
好,我讲的内容大概就这么多,做一个简单的小结。今天我们用简短的时间帮大家一块了解了互联网商业化体系的全貌,希望大家能认识到互联网的商业化体系也好,广告体系也好,跟传统广告体系关系并不大,它主要是在把免费产品形成的流量、数据和品牌价值这三项核心资产变成现金,所以你看到的谷歌也好,BAT也好,这样的巨头型的商业公司,为什么它都是用广告支撑他的业务的,这里面是有非常明确的原理的。但在了解这个商业化体系的原理之后,同样还要认识到我们还有事物的另外一面,就是利用数据客观地会带来隐私性的风险,特别是在互联网的这种稀疏行为数据的情况下,这种隐私数据的风险其实比我们原来考虑得问题要复杂很多,并且它仍然是未解决的一个问题。
总之,希望大家客观地来认识 大数据 ,了解大数据,也希望诸位在你们自己的行业当中、自己的工作当中,都能够有数据的意识和数据风险的意识,更好地让数据来服务于我们的业务,服务于我们的工作,好,谢谢大家
作者丨刘鹏 ,现任360商业产品首席架构师,负责 360 商业化变现的产品和技术。曾任微软亚洲研究院研究员、雅虎北京研究院高级科学家 ( 负责全球搜索广告、受众定向广告、个性化内容等项目 ) 、 MediaV 首席科学家 ( 负责算法和数据平台 ) 、以及搜狐集团研究院负责人。
注:本稿件摘自数据观入驻自媒体-软件定义世界(SDX),转载请注明来源,百度搜索“数据观”获取更多大数据资讯。
责任编辑:陈卓阳