有价信息的分布与冗余的数据泡沫:简析用矩阵QR分解来评估大数据价值

36氪  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

有价信息的分布与冗余的数据泡沫:简析用矩阵QR分解来评估大数据价值

编者按:本文来源于微信公众号“星瀚资本”(ID:skysagacapital)。作者杨歌,星瀚资本创始合伙人。36氪经授权发布。如有BP请投送:gary@skysaga.com.cn

在2016年互联网驱动的市场不断降温的环境中,大数据企业却逆势迭代,越来越多地涌现出来进入我们的视野。对于一个不算最新但仍并不成熟的领域,我们需要理解其本质,在之前的分享中我已向大家介绍过大数据的意义,那么今天则来进一步剖析一下对于大数据的理解深度。 

随着互联网的普及,不同的企业收集了各个行业海量的数据。数据犹如矿山,里面的内涵价值有待于我们去开采,而数据量就犹如矿石储量,掌握更多的数据已经成为了企业生存竞争的基石和进入下一个商业时代的入场券。在过往十余年互联网的野蛮生长过程中,中国市场的数据存量已经赶比美国,远远超过其他国家;对于各行业新兴的企业家,对数据的收集意识也在不断增强,一轮新的圈地竞赛早已拉开帷幕。

这个并没有错,然而大数据这个行业也和历史的每个阶段一样,大家都本着先圈再说的原则,已经在大数据的价值意义上渐行渐远。 少有人意识到大数据更重要的其实本应是信息密度的价值和存量数据的有效性。

数据从某种角度上来讲,并非越多越好。用简单地定义来说应该是越全越好,在当你无法获得更全面的数据体系时,才是越多越好。全,是一个战略的运筹;多,只不过是体力活儿罢了。简单的数据企业拼尽全力拓展渠道积累囤储数据; 出色的数据智能化企业则不断扩展数据维度。

什么叫数据维度?举几个栗子:

1、如果你是柯南去破解一个案件,你不可能只蹲点据守观察嫌疑人的日常行踪,你还要去了解他的网络相关信息,想方设法获得他的对话内容,了解个人历史经历,打探感情亲情关系,获取各类交易数据,比如不同渠道下有关于他的衣食住行的情报。破案本身就是用大数据信息逆向勾勒原型的过程,信息收集的要点并不是集中而反倒是分散。

2、去年我去硅谷的最大收获,并不是参观Google X,进到苹果总部,直面张首晟教授,跟各知名孵化器和VC的创始人聊天,而是和一个名不见经传VC的创始人,一位使用标准蹩脚英语的印度老兄聊了一下午的经历。他向我讲述了在书本、新闻以及成功人士履历中看不到的各种坑和行业困难,从一个基因完全不同的第三人称视角讲述了另一种挣扎前行的美国生活。这一经历让我对美国创投市场的认识立刻变得更加立体,从二维的光鲜色彩变成了三维的铁塑雕像,虽缺乏原来纯粹的美感,但却展现了立体的真实。

3、互联网公司都在使用大数据描绘人物画像和企业画像,不同的公司具有不同的优势和使命,然而市场中真正拥有"上帝之眼"的企业却少之又少。大多数企业的主体数据都是基于单一业务所收集的,LBS,TBS,餐饮BS,车行BS,交易BS....企业们在每个数据赛道下为了形成垄断壁垒(其实互联网行业的垄断效应会弱化很多)都在不断地并购以形成更大体量的行业龙头,然而在这个过程中 所收集数据的有效性却呈明显的边际递减趋势,数据体量虽然庞大,但其价值并不能有效提高,产生了大量的数据泡沫。 为了获取更精准的用户画像(以指导商业行为),企业们意识到企业间的数据合作趋势在必行, 只有获取每个用户不同方向下的行为习惯才有可能突破对单一数据分析的瓶颈,进一步获得深度的智能画像。

有价信息的分布与冗余的数据泡沫:简析用矩阵QR分解来评估大数据价值

于是2016年中涌现出了很多大数据服务公司来尝试解决数据搬运工作, 然而这其中的商业合规性、数据标准性、有效信息密度的一致性,在一定时期内都是复杂和繁杂的难题工作。 

数据维度就好比不同的感官能力,维度少而数据多就如同一台电脑具有超高的屏幕分辨率而没有音响扬声器。数据维度越多越全面,所展现的事物画像才能越清晰。对于事物的分析就是如此。

在观察大数据企业时, 数据的非集中性是和数据体量同等重要的一个判断指标。 而不幸的是,目前我们所关注的很多大数据企业所拥有的数据体系,从数学理解上都属于局部密集的稀疏矩阵数据体系,这对于了解和分析数据体系下的事物规律是不够理想的。 除具备全方位密集的完整数据群之外,较为理想的数据体系是均匀和完备的,在数学分析中这种情形称之为正交矩阵。

有价信息的分布与冗余的数据泡沫:简析用矩阵QR分解来评估大数据价值

(正交的意义实际上就是垂直,若a·b=0,则a⊥b,正交矩阵的意义就是每两个向量在n维空间下两两正交,这个向量组我们称之为该空间下的一组正交基;例如我们常用的垂直直角坐标系xyz就是三维空间下的一组正交基,而不垂直的一组非正交基e1e2e3所组成的笛卡尔坐标系仍然也可以表达该空间的各个点位,然而在数据有效性上则不比xyz垂直坐标系,e1e2e3的相关性越高,数据表达的有效性就越低。) 

在实际生活中和企业的商业行为中,我们所收集的数据体系往往都是不标准、噪音大、不完备、不够正交的原始数据。如果不加处理、判断、清洗、简化、归类、比对、变换和集成,数据的有效性是非常低下的。大数据时代下的企业如果需要继续进化突破瓶颈,更多留给我们的既不是进行数据争夺,也不是算法比拼(其实有很多可用于商业化的算法和程序经验从学术上看是相对简单和成熟的),而却是一个相对枯燥的苦工活儿,就是数据清洗和整合。

有价信息的分布与冗余的数据泡沫:简析用矩阵QR分解来评估大数据价值

这好比择菜,买菜是收集数据过程,做菜是算法处理过程,然而对于大数据来讲,最麻烦的就是这个择菜了。在美国,已经有越来越多的尖端数据公司和人才投入到了数据清洗的这一苦工行列;对于中国的市场环境,这同样是一个的不可回避和没有捷径的问题。 

回到正交矩阵的这个问题,它其实上反映的是 数据的全面性程度 。当我们意识到大数据的这个问题后,我们还有两项工作要做:

  1. 凭借社会化经验收集尽量全面和立体的多维数据;

  2. 把收集上来的数据进行正交化和简化处理。这样才能有助于我们理性地一个个攻克不同事物画像的分析。

其中对于第2点,在学习高等数学数值计算分析中记得存在这样一个定理:矩阵QR分解——任何一个非奇异矩阵都可以分解为一个正交阵Q和一个上三角阵R(上三角阵是除了对角阵之外一个比较理想的简化情形)的乘积,这恰好解决了我们的问题。

大数据时代下,我们越来越沉浸于数据和依赖于数据,让数据说话发挥价值。然而数据本身具备它自己的习性,我们需要深度理解而不能迷信。在生活和商业中我们开始用数据进行交易,用数据来做定价,为数据支付我们的资本和精力。我们需要减少同质化数据的收集过程,增加有效用数据的收集、提炼和整理,做有效化和智能化数据的朋友。

关于星瀚资本:

星瀚资本是一家专注价值投资、创新理念、产业结合的专业风险投资机构;星瀚资本重点关注跨界融合和颠覆性创新的机遇,汇集各行各业优质资源,投资TMT与影视文化领域中具备良好发展前景的中早期企业。

随意打赏

提交建议
微信扫一扫,分享给好友吧。