卧龙大数据周涛:海量数据信息搜索平台“数据淘”让数据流通起来

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

文|刘金玲

周涛是一直我最想要专访的人物,于我们36大数据而言,我们做大数据领域领军人物的专访,如果专访不到周涛,那我们的专访就是不完整的。

在整个中国大数据产业生态链中,周涛是无可取代的人物。如果我们把Viktor Mayer-Schönberger维克托-迈尔-舍恩伯格称为北美“大数据教父”的话,那么 中国“大数据教父”的称号非周涛莫属 。周涛身上有太多值得可圈可点的事,比如:

A、中国最年轻的教授,年仅27岁就被电子科技大学聘为教授;

B、中国最年轻的博导;

C、中央电视台2015年度科技创新人物;同时获得此项殊荣的还有2015诺贝尔奖生理学(或医学)奖的屠呦呦;

D、维克托-迈尔-舍恩伯格书籍《大数据时代》的译者;

…………等等。

周涛

这是大家印象里熟悉的周涛。有媒体人士2010年曾经这样写过周涛,他是这样描述周涛的:

他1岁多就会下象棋,3岁便会玩麻将,很小就被人叫做神童;6岁便学完小学数学课程;17岁考入中国科技大学,在大学期间自学完成研究生所有课程后被保送读博士。2010年,年仅27岁的他被电子科技大学聘为教授,被称为中国最年轻的教授。迄今为止,他已经在《美国科学院院刊》、《美国物理评论》和《欧洲物理快报》等世界一流学术刊物上发表论文50余篇。

如果一定要问我,我印象里周涛是个什么样的人?我会告诉你,他是个非常有才、务实、谦逊、随和的人,很瘦但也很精神,双目炯炯有神,似乎能够看透一切。我们互相加了微信后,偶尔也会在微信聊上几句,他幽默风趣的谈吐让人很舒服。他的朋友圈偶尔会发一些生活琐碎的事,微信头像是一只猫,完全没有学院派的严肃,倒更像是一个痴迷于大数据技术的大孩子。

其实,你也许不知道,周涛目前已经拥有3家大数据公司,他是BBD(数联铭品)的首席科学家,是数之联科技的CEO,还是成都卧龙大数据的创始人。卧龙大数据(成都知数科技有限公司)成立于2014年6月,公司立足于互联网大数据以及大数据分析挖掘技术,为企业提供技术解决方案以及智能决策支撑。该公司目前已成为国内最大的第三方用户画像公司。

今天,针对卧龙大数据的发展以及中国大数据产业链的情况,我们与周涛进行了连线,下面是专访内容。

36大数据:如今“大数据”对于我们普通民众来说并不陌生,经常有人谈论,但众多说法不一,周涛教授能不能给我们大致介绍一下大数据呢?

周涛 大数据不是数据量的简单刻画,也不是特定算法、技术或商业模式上的发展,而 是从数据量、数据形态和数据分析处理方式,到理念和形态上重大变革的总和 。所以我们提出 大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。

在大数据时代有三个明显的趋势:

第一个趋势是数据总量爆炸性的增长 。我们现在每天产生的数据量相当于公元元年至大约一千年全人类产生的数据总量,而且这个量还在以指数级规律不断增长。所以大数据时代第一个重大的矛盾,就是日益增长的数据总量和我们普通人分辨甄别数据能力之间的矛盾,我们把它形象地叫做数据过载。

第二大趋势是数据的形态发生了巨大的变化。 以前我们接触的绝大多数数据是结构化的数据,说白了就是一张张的二维表格,简单易分析。但是现在新增的数据更多的变成了非结构化的数据,比如语音、图像、视频、社交关系网络、空间移动轨迹等等。这些数据量非常大,里面藏着巨大的价值。但和结构化的数据不一样,我们没有一种普适的办法去挖掘这个价值,这就带来了我们大数据时代的第二个大的挑战——如何挖掘非结构化数据中的价值,甚至把它转化为结构化的数据。

第三就是数据的关联形态发生了变化。 以前我们也有很多数据,比如说新浪微博的数据,腾讯QQ的数据,线下公安局的犯罪记录数据。这些数据在不同的部门价值都非常大,但是数据和数据之间并不沟通,类似于信息的孤岛。所以我们没有办法知道在微博上的那个人就是在淘宝上买东西的那个人,也就是在医院看病的那个人。但现在不一样,我们通过一些商业模式、技术手段、资本、产品等等办法,可以打通不同领域的数据,能够将不同平台不同维度的数据通过同一个人、同一家企业、同一部手机、同一个位置关联起来。所以,怎么样在安全、隐私可控的情况下,使这些跨领域关联的数据产生1+1远大于2的价值,是大数据时代的又一大挑战。

36大数据:我们知道周涛教授不单是大数据科研领域的先锋,也是将大数据结合商业实践的创业典范,最近听说您在成都创立了一家名为卧龙大数据的公司,大概是一家什么样的企业呢?

周涛: 卧龙大数据是一家年轻的公司。说它年轻主要不是说成立时间短,更多的是指我们的团队年轻。我们的团队大部分由90后组成,平均年龄不超过25岁,但他们却有着最前沿的创意想法和令人瞠目的计算机技术能力。

针对我刚才说的三大挑战,卧龙大数据在做对应的三方面基础工作:

一是对海量数据的大规模采集、存储、分析、处理,目前我们的数据采集存量已经超过PB级别,这相当于国家图书馆25倍的信息量 ,同时每天还在以TB的量级在更新。这些数据包含了新闻、社交、电商、招聘、企业、旅游等方方面面。

二是在进行非结构化数据的结构化处理。 例如:我们可以实现用计算机对连续文本进行语义理解,根据语义内容再将数据内容转化为结构化数据进行数据分析预测。譬如淘宝的商品信息数据就是非结构化的,商品颜色、规格、风格、包装等诸多信息杂乱且不规则的表达在商品标题和商品描述中,我们能用计算机将之一一识别并按照结构化数据的特点填放到“表格”中,这样就可以使商品数据的分析变得十分简单。

三是在做数据的跨域关联。 我们通过把不同维度的数据进行跨域关联来综合描绘一个目标体,这个目标体可以是人、商品、品牌、商铺等等。比如我们以前从单一信息维度来描述我们的用户,只能标注这个用户的性别、年龄等基本信息,现在通过关联微博等社交数据后我们则可以知道用户的爱好和社交圈关系,关联电商数据后我们则可以知道用户的行为偏好和消费习惯,甚至关联招聘数据以了解用户的工作情况,关联POI地理定位数据了解用户的生活工作地点……当然这些数据都是经过脱敏处理的,让用户画像在为人们提供更便捷、更贴心、更个性化服务的同时,做好个人的隐私保护。

大数据

36大数据:卧龙大数据目前有具体的产品吗,有什么特点呢?

周涛 :卧龙大数据目前的产品有两项:一是“数字画像“系列,二是“数据淘”。

数字画像是依托于我们刚才说的跨域关联技术推出的产品。在个人画像和企业画像方面,我们已经向国内知名的银行、征信机构、信贷公司等提供服务,帮助他们丰富目标客户的数据维度,使其在征信判定上成本更低,效果更准确。在商品画像方面,我们与国内外多个跨境电商机构合作,帮助跨境电商企业选择国内外不同地区里评价最优、销量最好、利润最高的跨境贸易商品。在品牌画像方面,我们依托海量数据储备和实时采集,将“品牌”这类人们能够普遍感知但无法定量计算的概念具象化为数值,为不同行业的品牌商提供从品牌覆盖度、舆论热度、美誉度、忠诚度,到市场表现、科技力、涉诉情况、资本表现、用户细分、商品优缺点等维度的定量化数据展示,帮助品牌商利用大数据在精细化生产、个性化营销、实时化品牌保护等方面提供决策支撑。

数据淘是卧龙大数据搭建的一个数据垂直搜索平台,它与目前已有的数据交易平台是有本质区别的。该平台的核心不在“交易”,而在“搜索”。它将会整合线上线下海量数据信息,打造成为数据行业的“百度”“谷歌”,帮助数据需求方快速找到数据拥有方,成为连接数据需求者、数据供给者以及各类第三方数据交易平台的搜索入口。该平台将承诺免费为数据供需双方搭建联系桥梁,使数据流通更加透明、更加低成本。一切机构、企业、个人以及第三方数据交易平台都可以通过数据淘展示数据,亦可以通过数据淘发布数据需求,使存在于不同领域的数据能够更好地无障碍流动,繁荣数据市场。

36大数据:请问周涛教授,能不能和我们分享下在这个越来越快速的时代,我们需要学习哪些知识才能够紧跟大数据时代的步伐呢?

周涛: 首先要说明的是“大数据”不等于“计算机”,它不是一个简单直接的技术问题,更多的是一个理念和方法论的问题,它是一项综合的能力。在大数据时代,并不是说每个人都要重新学JAVA、C、Python语言,而是要懂新时代的管理理念是什么,要懂商业机会在哪儿,要跟着这个浪潮往前走。具体来说,我有下面三个大的建议:

第一个是统计理论的掌握 ,因为学了统计学的人判断事情比较严谨,比较客观,比较理性,明白什么是普遍,什么是偶然。但是我这里讲的统计理论还不是指某种具体的统计工具和统计思路,而是重点强调的“统计观”,就是我们能区分关联和因果,能看得出一个统计结果是不是显著的,有多么的显著等等。是要做正确的统计,而不是错误的统计。

第二个是机器学习,因为这是代表了绝大部分大数据问题的方法论。 我们能够做分类预测,并且将来能够做大规模的无与有监督的学习,这里面可能涵盖了绝大部分以后大数据方向的创新性应用。并且,机器学习这个问题本身,哪怕你就是不懂怎么编程,你也一定要有这个概念。

第三就是要打开视野,要持续多读书,养成定期定量阅读的习惯 ,即时无法完全掌握,看完那么多书也好。所以除了自己的专业领域,在其他方面的学科,比如说数学、物理、计算机、心理学、生物、社会学、经济学、国学、历史学等等方面的书籍也都应该去涉猎。这些本科的教材至少要读完,这样才能有一个开阔的视野。

————————————

访问完成后,我不知道写一个怎么样的结尾比较合适。因为我对周涛引人入胜的介绍深深吸引了。周涛给我介绍的不止是卧龙大数据公司的情况,更是一副描绘大数据未来的蓝图。透过周涛的介绍,我们不止看到了一个跨时代的变革,更看到了智能化的未来。

用户画像是目前银行、征信机构、信贷公司的技术短板和刚缺,卧龙大数据的“数字画像”产品刚好满足了这个刚需。中国银行、百融金服都是他们的合作伙伴。

再说“数据淘”这款产品,这是一款海量数据源的搜索平台。数据淘的出现,将改变中国大数据产业链上数据源获取困难的情况,同时也给那些拥有数据源的公司带来更多的增值机会。在为行业打通数据孤岛、实现数据流通的同时,也从侧面积极的推动了中国大数据的全面发展,意义非常重大。

6月6日,36大数据中国行系列活动将走进成都。届时,我们不止会请到周涛到现场与大家进行分享,还会第一时间为大家报道关于卧龙大数据旗下两款产品的评测使用报告,尽请期待。

如果你对卧龙大数据产品有什么看法?或者有什么问题想问我们的“大数据教父”周涛,欢迎评论来告诉我们。

End.

随意打赏

提交建议
微信扫一扫,分享给好友吧。