清华大学数据科学研究院邱东晓:大数据很美 创业很艰难
12月22日,由工业和信息化部和中国电子信息联合会指导,奥维云网(AVC)主办的“2015智慧家庭大数据年会暨奥维大数据产品发布会”在北京召开,36大数据作为特邀媒体全程参与图文报道,下面是发布会现场清华大学数据科学研究院和清数D-Lab大数据产业联合会的邱东晓的现场演讲,演讲主题为《大数据:引领行业变革和创新服务》。
大家下午好!
我是清华大学数据科学研究院和轻举大数据产业联合会的邱东晓,今天非常高兴来到这里,我刚才听了文总发自内心的讲话相当有触动,创业的艰难,大数据听着很美,但是其实是非常辛苦的过程。所以觉得很感动,希望在大数据时代,奥维云网可以更上一层楼。
今天我们讲大数据,它是一个热门的话题,在座有很多专家。所以我也是来学习的,大家对大数据概念、大数据技术、系统产业这些话题,我们谈的越来越多的时候,有时候我们需要回到它的本质,以及它最初的出发点,所以我今天打算从这个角度开始谈起,我谈一些非常简单的概念,希望大家拍砖。
我们在用大数据这个词,有时候我们指的是数据,有时候我们又用来使观念和思维的方式。我们还是回到最根本,其实大数据是为了提升业务,为了大家生活的更好,我们来看看行业里面的数据的影响在哪里,最后讨论一下智慧家庭。
我讲这些概念有些特别简单,我们一步一步往下走。
第一个问题,什么是大数据,我们可以先说一下盲人摸象,我们要理解一个事物,要从不同的角度来得到数据,结合起来可以得到更好的理解,也可以得到画像,可以做出更好的判断或者是预测,就是典型的大数据应用。
我们认为能够做应用的数据就是大数据,大数据概念里面提技术,所以有时候我们会听到数据的数量、规模、
类型。有时候我们也说它超过我们现有的系统处理速度,我觉得从定义来考虑,大数据是一个相对的概念。从这个角度来看,我们想讨论定义,不如专注于出发点,就是我们的业务,不管白猫黑猫能抓住老鼠的就是好猫。
能够帮到业务的就是好数据,我们来解释大数据的“大”,其实有同志讲过,主要还是用来描述业务对象宏观和微观上的特点。比如说宏观,我们研究这头象,我们从更多的外部数据了解到其他的大象,我们也了解到其他的动物。比如说象所在的生活环境,从动物园,从这些数据我们知道可以让大象怎么过的更好,这是从宏观的角度来扩大对数据的理解。
从微观的角度,比如说我们了解大象它站起来,它早中晚的习惯是什么,通过这种比较微观、颗粒化的理解,我们针对它的特点提供更好的服务,我们来了解行业外部的数据,就可以更好的应用全行业跟跨行业的资源为用户服务。从微观角度来讲,我们用这种数据来了解个体的用户,提供更个性化的产品和服务。
有相关数据增长的速度,我们知道有的数据跟业务相关,数据用途大不大不重要,解决问题才重要。要通过对我们的业务进行深刻的理解,我们才知道究竟要使用什么样的数据。如果我们拘泥于数据的大小,很可能会舞蹈我们自己对业务的判断。
同样用盲人摸象的例子,我们跟大数据结合起来处理分析,我们同样不要纠结哪些是好,由于我们关注到的数据更宏观了,也更微观了。所以数据量变大,速度也更快,在数据获取、处理、存储、分析、展示上我们是需要技术,技术能够帮到我们的程度其实取决于我们对业务理解的程度。有时候简单的模型反而更能够解决问题。
数据的规范和数据的获得,刚才文总也提到很多其实是很难的工作。大数据技术,我们不认为它是一个很炫的技术。同样,我们也可以说能够帮到业务的就是好技术,用好这个技术扩大我们的宏观和微观上的思考,帮助我们提升业务就是大数据。我们希望用这个概念帮助大家更简单的理解。
我们从一般的系统来看,我们可以看到一个系统它有质量、物质、信息的交换,在边界上来完成,一个系统当然也受到环境和因素的影响。把我们的物料、硬件技术、供应链、物流连接起来,里面组成的部分可以是伙伴、客户、竞争对手等等,他们关注的是供应链,以及系统产生出来的产品和服务。
其实我们看这个企业,我们主要看它的资金流、物流、信息流。所以这几个方面,如果能够确定,我们基本上就大致了解了这个企业的走向。
现在再进一步考虑这三个部分,实际上资金、物质和信息有不同的规律,我们只是从总体来讲,我们看到单位数的影响,代表的就是传统行业。到了信息层面,其实受到摩尔定律的影响,但是它又不受到物理的限制。这方面代表的是谷歌,讲到智慧家庭的时候大家就会明白了。我们知道在移动互联网时代,其实谷歌非常独立,像苹果的硬件和数据层面都很强。其实苹果是第一,谷歌是第二,英特尔是第三,这几个地方给了我们启示。
其实一级比一级更高的生产力因素,所以我们讲信息社会、互联网时代,它的影响越来越大。我们可以从政府层面,经济发展先说工业化,再说信息化,两化融合,大势是这样的,看整个单个业态,我们具体分析这些业务。要从机制里面找到企业的发力点,我们其实是通过数据更好来了解和外部的环境。
其实我们也要看到,用好大数据也是提升硬件层面,数据已经不单单是信息部分,直接影响到硬件。大数据情况下,我们看边界产品更加开放,表现出来跨界的影响特别多,宏观层面和微观层面。所以这些说明了跨界的行为现象正在发生,它们也可以说靠的是大数据,也是靠的是特别多的数据,我们后面会谈碰到这些情况,我们怎么定性。
另一方面,由于信息交流越来越流畅,各个组成部分都变成了数据提供方,里面的供应商和客户,以及一些伙伴,其实数据交流越来越多,我们可以共同来创造产品和服务。我们的产品和服务也可以更加的个性化,我们可以从简单的概念把最近比较热的词梳理一遍,为什么会发生这种情况,所以宏观带来了跨界,微观带来了个性化。我们前面也提到了至于说安全和隐私变成了重要的制约因素,它的硬件部分难度是不能低谷的,很多人低估了这个事情都吃了很多亏。
智慧家庭其实它不是互联网,相关的数据应该是中产阶级在它的家庭生活场景下用的数据,这些数据都是能够积累的。如果我们定义大数据规模,如果我们也定义大数据,真正的因素应该是什么呢?所以这些数据应该是来自于我们的中产阶级他在生活当中产生的数据,而且在这个过程中,其实硬件很关键的。另外一个重要的问题,就是技术的推动因素在哪里。必须在这个方面带来推动。
另外,我们要考虑到智慧家庭,它整个接受度还是周期比较长的。我们要实施大数据战略,我们要把数据打通,谢谢大家。
36大数据现场直播专稿。
End.