小公司的大数据之路:打破孤岛,打击造假

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

小公司的大数据之路:打破孤岛,打击造假

李鹏

2013年,Netflix 推出的根据 BBC 同名剧集改编的《纸牌屋》(House of Cards)成为大数据指导内容制作的口碑之作,Netflix 鼓吹的大数据方法论迅速被内容产业的从业者们奉之为圭臬。

同一年,酷云成立了。

一开始,这家公司野心勃勃地试图在 PC 互联网和移动互联网之外占领“家庭互联网”。而在此之前,同样雄心勃勃的陈天桥的盛大盒子最终都不得不折戟沉沙。在软硬件条件都不成熟的情况下,在各方面势力相互角逐岂容他人酣睡的激烈竞争的战场上,一个小小的创业公司哪还有什么机会,它不得不面临或者另谋出路或者就此一条血路走到底的选择。

最终,这家公司决定另辟蹊径。他们不在媒体数据这一领域上左右逢源,转而去连接数据和人。

小公司的大数据之路:打破孤岛,打击造假

《纽约客》的这幅漫画成为早期互联网最逼真的写照

在互联网刚出现的时候,关于这个新生事物最有名的段子莫过于“网上没人知道你是条狗”的讽刺,但是,随着互联网的不断深入发展以及数据量的不断积累,人们逐渐意识到,这一问题不止是忧思和善意的讽刺,而是切实地影响着互联网商业的运行。

移动智能设备及移动互联网的出现更是加剧了这一状况,越来越多的智能屏幕应运而生,越来越碎片化、个性化的应用场景层出不穷。

那么,问题来了,如果我们连不同屏幕背后的用户的身份都无法确定的话,如果我们连不同屏幕上的操作和习惯是否出于同一个用户都不能确定的话,那么,基于数据的互联网广告、推送、交易乃至征信基本上都只能停留在纸上谈兵的阶段,拥有再多数据又有什么用呢?

大数据只是死数据,能够结构化的才是真正的大数据。

因此,只有打破硬件、应用场景的藩篱,只有将数据和用户连接起来,才能真正发挥大数据的作用与威力。换言之,大数据的意义与价值不是单纯地积累数据规模,而是打破数据分散割裂的孤岛状态,将其逻辑化序列化。

酷云做的就是,把屏幕上的行为和屏幕后的那个用户联系起来,建立起一个抽象的用户画像。

他们首先有着自己的 ACR(自动内容识别,Automatic Content Recognition)技术,通过和硬件厂商的合作,他们将传感器元件置入电视中,通过声音图像来识别场景中的主要信息,包括Google、微软及Arcsoft、Digimarc、Nuance 等公司在这一领域都树立了自己的优势。

更为重要的是,这家公司手上掌握的超大规模的数据量。截至2018年1月,酷云宣称他们已经覆盖80%的智能电视终端品牌,拥有3亿以上的活跃用户 KID,为包括七大卫视在内的400余家电视台、国内排名前10的影视内容制作公司等提供电视媒体大数据服务。

数据显示,我国智能电视存量在2017年大约为1.5亿台,再来看看2015年全国1%人口抽样调查的数据,其中指出“平均每个家庭户的人口为3.10人”,只需要做一道简单的计算题就会发现这样一个惊人的事实,酷云拥有着大约2/3的智能电视用户的数据。

如果说在前互联网时代,“时间就是金钱”还是一条颠扑不灭的真理的话,那么,在这个大数据已然成为无往不利法宝的时代,我们有理由提出一条新的公理,数据就是一切。

任何一个在垂直领域拥有如此规模和比重用户数据的公司都足以活得风生水起。

酷云自然也不例外,这家公司现在的商业模式主要集中在两方面,一是把数据做 SaaS 平台,将其销售给影视公司、节目公司和平台,另外一方面,由于手中掌握的海量的屏幕和用户,酷云能够针对不同用户进行精准的广告推送。

死数据与大数据更重要的一点区别还在于,前者永远存在造假的可能性。

CNNIC 的数据显示,截至2017年12月,中国网民规模达到7.72亿,而号称2017年流量最多的某电视剧至完结当日累计播放量超过416亿,平均下来这部剧集每集在网络上的播放量大约超过6亿,这相当于每10个中国网民中就有将近8人看过此剧。

技术手段的限制和行业潜规则让这样的造假风气蔓延盛行,最终形成恶性的食物链,每部剧集都会或多或少地通过这样的手段来造势,广告主的预算和投放自然会倾向于那些数据华丽的平台。

短期来看,关注和流量的确能带来良好的回报,但是,更长远地看的话,广告主的投入产出最终一定无法和支出相侔,到时候,这个数据泡沫就必然破灭,而整个内容产业自然也会因此遭遇雪崩式的危机。

酷云正在做的事情就是把这样的泡沫一点点挤破,当大数据就能客观反映趋势和真相的话,那么数据造假在市场上存在的意义就会一点一点被忽视否认。

而这正是大数据对互联网时代巨大推动的最鲜活有力的例证之一。

以下是钛媒体同酷云互动董事长兼 CEO 的对话,经过编辑:

(Q = 媒体,A = 李鹏 酷云互动董事长兼 CEO)

Q:酷云在技术上的优势有哪些?

A:有两个。

第一是多重传感技术。

最简单的理解是,我们 iPhone X 的头帘,上面有接近十种的传感在里面。我们也在做多重传感,目的很简单,有一些场景,特别是户外的时候,怎么把人的 ID 和户外很多屏幕的信息关联起来。

靠传统的一个传感器的技术是无法完全实现的。所以我们做了多重传感技术。其实它是用多种不同的传感器组合起来,每一个传感器干一件事情,每一件传感器都有数据回传,但组合起来,相当于把数据做了优化和汇总,这样对整个识别效率会大大提升。

第二个技术的方向是区块链。

区块链好像是瞬间火起来了,但我们研究这个已经研究了很长时间了。我们来解决什么问题呢?就是数据可信的问题。

因为区块链的核心是去中心化。要把两个世界的数据打通,比如一部分数据是人看了这些媒体,一部分数据是人进了电影院。同样一个人干了两件事情,两个一对接,就知道了这个人看好哪些媒体,还有他为什么到了电影院,这是非常简单的需求。

传统的技术很难实现这两个数据的安全对接,所谓安全对接就是这个数据能够做用户隐私保护,这边的数据得不到,反过来也是同样的道理。在这种场景下,就提出来一个数据安全加密的需求,区块链就体现出它的用武之地和优势了。

Q:现在互联网电视流量数据造假的手段主要有哪些?

A:如果讲泛娱乐中国市场的问题,我们现在关注三个场景。

第一个场景是电视,是我们主战场。第二个场景比如是电影。第三个场景OTV就是互联网视频网站。

我们看这三个领域泛娱乐数据目前的真实情况,我们跟电影院也采集数据。目前电影市场最新数据已经刚刚官方公布了,大概570亿。可是大家知道吗?很多人都说过了,这里面30%是假的。

中国的电视领域,目前在电视台播出的影视剧,90%是通过数据造假、通过购买搜索来获得的。OTV 市场比这两个市场加起来还假。原因很简单,互联网有它的原罪,今天整个互联网阵营都是在像狂野一样的发展,不仅是视频网站,其他领域都是这样。

怎么实现的呢?无外乎两种手段。

一种手段是外部,一种手段是内部。更容易被技术发现的是外部的,随便找淘宝加几个旺旺跟他们聊聊天,基本上会把外部的市场摸个七七八八了。第一个做法相对比较粗糙,手段相对来说比较单一一点,通过一些核心技术手段,这些东西可以在99%的范围内被干掉。

我核心讲一下内部,这是整个视频领域中目前不太好的一种做法,做法很简单,比如你有小孩,你的小孩特别喜欢看《蜡笔小新》,他坐在手机前或者电脑前看,看的时候你陪着他。但这种片子经济价值、流量价值是偏低的。因为我如果卖 CPM 的话,可能半买半送都可以,从某种程度上说是低价流量。但这个流量是真实存在的,怎么办?

那就把这个活生生的真实的流量改变,假设最近有一个片子流行,从两块钱卖到了接近一百块钱,那就是几十倍的攀升。如果有人能够把《蜡笔小新》的流量变成这个片子的流量,就获得了巨大的利益。

Q:广告主成了最大的“受害者”?

A:说到重点了,就是因为在过去数据是“孤岛”,企业的销售和交易数据和其他的数据完全是两个不可打通的世界,而这个世界是靠媒体的数据来评估内容的,比如收视是媒体数据,收视率高就是内容好。很多企业不知道,有些企业知道,但能怎么办?还有一些企业可能中层也有一些腐败的行为。

我们过去把这叫做“假繁荣”,这就是假繁荣背后核心的商业逻辑。

那么为什么这个繁荣景象出现了问题?两个原因:

第一个原因是纯市场化原因。就是大家都在买,那些资源方发现后那就选择涨价;而现在已经涨到天价了,很多影视公司买不起了。然后大家开始反抗,不是反抗作假,而是价格太高买不起了。

第二个原因,我们出现了。有个影视圈大佬跟我说,以前我们看哪个电视剧收视率出来,就说哥们儿牛逼,因为你也不知道它真实的是怎么样。现在看完了之后,这么高,打开酷云,如果也是很牛逼,他就会说哥们儿真牛逼。或者打开酷云以后,看到数据跌到十名以后,那就说“傻逼”。

所以我们说的跨屏,其实核心干的事情就是把两个原本在不同世界的数据融合在一起,靠的是一个共有的人。你还关心互联网刷屏刷500亿还是1000亿吗?不,因为是假的。当我知道了不同媒体对我品牌提升和带来的 ROI 转化分别是多少的时候,能用数据客观评价出来的时候,谁还会关心收视率多少。

所以我们得出一个结论,有两个趋势未来不可逆。

第一叫做媒体的数字化不可逆,我们是把整个中国承载的一千亿广告的电视媒体给数字化了,我们在干这件事情。未来不要再分什么传统媒体,不要再分什么新媒体、互联网媒体,因为所有媒体都是数字化媒体。第二个趋势叫做企业数字化不可逆。

Q:这项技术还有哪些其他应用场景?

A:过去一年,阿里吹了一年的口号,很多超市开始意识到数据的重要性。我们现在也在跟一些超市在合作,我们认为有两个品牌一直在行业内非常知名,一个是宝洁,一个是联合利华,他们是快消品前两大知名企业,他们也想到非常好的方法来支撑数字化转型,但不知道怎么做。因为他们没有自己的超市,用户在超市里面买了海飞丝洗发水或者飘柔洗发水,都是人家的平台,他们对这件事很头疼。

随着新零售的发展,已经有了很多新的技术解决方案,在超市里面把人和他的购买产品的清单实时数据建立起来,不仅有无人货架和无人便利店,还有智能购物车、固定扫码台,很多数据都具备了多重传感以及对人的ID的识别等等的能力。

这意味着什么呢?再过一段时间,我就可以找联合利华和在超市销售产品的厂商。你的数据我有,可以给你们,看怎么更好的合作,怎么去更好地利用这些数据。(本文首发钛媒体,作者/胡勇)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

小公司的大数据之路:打破孤岛,打击造假

随意打赏

大数据打破信息孤岛大数据 信息孤岛打破信息孤岛打破数据孤岛数据孤岛问题打通数据孤岛大数据孤岛大数据造假数据孤岛
提交建议
微信扫一扫,分享给好友吧。