春风吹战鼓擂,阿里决战大数据
文/苏湘迅
眼下已经进入大数据时代,美国谷歌、亚马逊、IBM、苹果、Facebook都是大数据的领跑者,谷歌公司作为大数据时代的奠基者,同时也有人在对其挑战,比如亚马逊拥有无可比拟的购物数据,Salesforce拥有将终端销售和社交营销关联数据;在国内,如何用好大数据被互联网巨头们视为发展的下一站,阳春三月,阿里巴巴在西湖召开首届大数据峰会,拥有超过100PB已处理过数据的阿里巴巴,将如何图谋?
先来看看美国市场的大数据现状,美国谷歌公司是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范。在《如何避免失败,像Google一样玩转大数据?》一文中,介绍了谷歌公司处理大数据的方式有以下几点:1、收集原始数据,捕捉每一个网站的内容,电子邮件或者Cookie,然后抽取出关键的信息;2、为这些信息创建复杂的关联索引以及与广告相关的索引;3、将索引和相应的内容存储在分布式的服务器上;4、当用户浏览网页进行搜索,或者查看电子邮件时,Google就会将用户的请求放到一个复杂的“翻译”过程中,然后几个索引条目就会相应地被定位;5、根据索引在服务器中进行数据检索,然后返回搜索结果或者相对应的广告。
科技博客AllthingsD表示,作为电子商务巨头的亚马逊和其数量庞大的第三方卖家,在成千上万款日常产品中为消费者提供精选品,也常常会提供全网最低价的商品,去亚马逊购物成为美国人的首选,除了逐渐分流谷歌的电商流量,击败谷歌的真正关键在于大数据。亚马逊在大数据方面的优势毋庸置疑。该公司坐拥上千万人的个人信息、购物习惯和偏好数据。谷歌有类似的信息吗?也许吧,但亚马逊目前所拥有的购物数据可能还无人能敌。Salesforce长期以来在客户关系管理(CRM)、B2B营销和软件即服务(SaaS)领域都占据着领先地位,两年前,该公司收购了社交媒体测量领域的佼佼者Radian 6,去年将社交媒体管理平台Buddy Media收入囊中。上个月末,Salesforce斥资25亿美元买下云端营销软件公司ExactTarget。其收购狂潮并未就此结束,Salesforce最近还收购了企业商业智能和分析初创公司EdgeSpring。
亚马逊和Salesforce等公司的共同之处是,希望得到更多的数据,因为利用海量数据将会是与谷歌抗衡的唯一方式。它们不管是聚焦控制某一个流量来源、收购还是开发创新技术,实质上都不是为了与谷歌竞争,而是为了争夺数据,借此刺激营收。
无独有偶,在中国国内,电商巨头阿里巴巴为进入大数据时代已经做了三年的部署,阿里巴巴董事局主席马云最近发出的一封内部邮件,提到了阿里的未来战略:以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。
从数据思维到数据的商业价值,这份内部邮件表明阿里巴巴对数据未来的一些布局,在整个数据应用体系上,已经确定两个方针,第一个从IT到DT,从管理、控制到点燃和激发,DT就是点燃整个数据和激发整个数据的力量,让他被社会所用,让他被销售所用,让他为制造业所用,为消费者信用所用;第二个让阿里巴巴的数据、以及数据工具能够成为中国商业的基础力量,推动整个中国经济变革的发展。
阿里大数据峰会探讨的是如何激发数据的能量,让数据成为一种信仰,让数据发挥它的商业价值。
自阿里巴巴成立十多年以来,阿里巴巴已经积累了包括交易、金融、SNS、地图、生活服务等多种类型的数据,这些数据之间相互关联,拥有超过100PB已处理过的数据,如何用好这些大数据,则成为数据时代阿里人的共识。
数据标准化,工程化,阿里数据迈出的第一步,巨量数据如何被储存与计算,是大数据能否被应用并实现价值的基础,支撑大数据运算的底座就是云计算,目前阿里单集群规模达到5000台,这标志着阿里在云计算领域已经和大数据中心的平台级互联网公司谷歌、亚马逊有一比拼,说是云计算的标杆或不为过。以下数据可以佐证以下,以2013年双11为例,在当天1.88亿笔交易中,75%的交易都在阿里巴巴旗下的阿里云平台上运行,2012年这一比例只有20%。天弘基金移入阿里云后,余额宝3亿笔交易的清算可在140分钟内完成,阿里云平台经过数年的搭建和发展,已经承载着海量的大数据分析计算。
如何用好数据,数据化解决问题,阿里发展的一个拐点,可实时性、可解释性、数据准确性稳定性,这三个维度是阿里对数据化解决问题的部署,指导阿里在商业智能实战中如何运营数据。如何做好做数据的保障,从数据的出生,人才的不匹配、数据冗余、工具不统一,安全、质量,这是产生数据价值的基础,阿里数据委员会负责人车品觉如是说,关于数据的实践,一切从问题开始,从实践中提炼数据,让数据的体验变得超级简单,让数据跟着人走,然后颠覆性来自分类跟重组等等,我们要让人做人擅长做的事,机器做机器擅长的事。千万不要倒过来,人做了机器擅长的事,以及机器做了人擅长的事,这样效率就会降低。
数据开放,让更多的人参与进来用阿里巴巴大数据。不仅仅是对内服务,“我们这个Data要泛化更多的人要用,更多的人去用上数据,就好象20年前我们让每一个人用上科技,那今天的数据就是要给更多的人用。”车品觉表示。
阿里巴巴数据如何开放?在阿里大数据峰会上,阿里官方表示要开放必须解决两个问题,第一个问题给全球的数据开发者一个数据的工作平台,分布式的存储平台和在这个平台上的算法工具;第二个问题是数据的脱敏,同时把数据的商业定义,每个标签打得足够清晰,能够让全球的数据开发者在阿里巴巴平台展开数据思维,让数据为政府所用、消费者所用、行业所用。
阿里巴巴要做一个数据分享的平台,将阿里巴巴的数据认知以及市场所产生的数据形成一个开放市场,让在校大学生,学统计的、学数学的、学挖掘的,能够去阿里巴巴数据平台去创业,从IT转变到DT,才能实现成为中国整个商业的基础设施,阿里某高管表示,光靠阿里巴巴的能量是有限的,只有让数据产生信仰,才能产生一个结果,数据的开放。
美国奥巴马总统说,“未来,没有这样重量级的先进企业做支撑,即使靠传统产业像产油国家那样获得一时的繁荣,但也必将是不可持续的。”我们期待中国的大数据巨头们,像阿里巴巴一样,从数据开放做起,来共同开发大数据,这个“未来的新石油”,春风吹,战鼓擂,决战大数据不仅仅是阿里的事情,更是中国经济发展的机遇。
(声明:本文仅代表作者观点,不代表新浪网立场。)