两会好声音,中国大数据
文|罗超
大数据正在加速落地。中国政府出台大数据刺激计划只是时间早晚问题,企业家正在通过各种渠道去影响政府,希望其尽快承担起大数据开放和利用的牵头职责。
大数据从民到官,寻找新大陆
两会期间,与大数据相关的提案呈现出井喷之势。李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的数据资料,公开的放到网络上;雷军则直接建议将大数据纳入国家战略,推动大数据切实地用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。
大数据的重要性正在从科研理论群体转向政府决策部门,而中间的桥梁是企业。这种自下而上的推动与美国的大数据发展走的是截然不同的道路。最终仍将走到相同的目的地:政府即是大数据产业的规划指导者,也是实践者,殊途同归。
一方面,政府管理国家的过程中不断收集到海量数据并存档在案;而另一方面,政府又需要不断去统计、分析、预测这个国家的一些宏观情况,辅助决策。公安、媒体、金融、卫生、教育、贸易等行业都在不断积累数据,政府因为监管的需要又会对这些数据进行汇总。统计局,测绘局、气象局等部门则是直接在做数据的收集、分析或者利用。
政府掌握的海量数据如果能进行适度地开放,加载互联网便捷的查询能力和挖掘能力,将会释放出巨大的价值。一些原本未曾主动收集的数据,政府如果推动其收集,也将爆发巨大能力。马航失事便被一些人士认为是落后的数据同步技术,而声纹数据库如若建立则可以进行反恐,建立指纹数据库则可帮助打击儿童拐卖。
这些数据拥有巨大的社会、科研、民生和经济价值。
大数据成为新的调查方式,辅助决策
两会期间,中国政府的官方媒体CCTV在新闻报道中正在越来越多地利用大数据的研究成果,例如百度指数、百度新闻热搜榜。基于大数据的分析报告更加全局、客观和直观。数据是世界的真实映射。分析报告则反映了世界在空间和时间维度上的特性。大数据真正的优势是,它的数据收集、统计是自动化的,分析是智能化的挖掘。
新闻和大数据的关联,基于以下几个特性——实时性、海量样本、数据挖掘、真实表达等。因此大数据成为媒体报道热衷的新手段——快、准、新、真。百度积累的是表征人们需求的搜索数据,反映民意和国情;阿里掌握着交易数据和信用数据,甚至可以预知经济走向,金融危机前马云便可基于B2B交易数据的变化,提前预知,这便是阿里的大数据场景;腾讯擅长社交和关系数据。在新闻媒体上都有发挥空间。
在大数据的运用上,新闻媒体充当了先锋派,但大数据的价值绝不仅仅止于此。
大数据是调查的一种手段。两会代表问政建议(提案、议案),政府部门决策,都在越来越多地依托百度这样的大数据服务,从数据挖掘中获得科学决策的智力支持。
马化腾的“利用互联网技术推进食品安全监督”,如果能利用RFID射频技术等对食品从种植到成长到运输到销售整个流程进行数据收集,食品安全监督自然更容易。还可以定期基于大数据分析出不同地域、不同类型、不同品牌的食品安全问题,进行预警提醒。
基于空间和时间两个纬度统计空气质量变化,可以辅助环保部门进行空气治理规划。基于高中生专业意向的收集统计,则可以指导教育部门和高校进行更科学合理的招生计划。
互联网大数据谁先落地?
搜索引擎天生就在做数据生意。百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。百度是汇聚国情、民意的大数据的最大平台,包括搜索及点击行为、贴吧知道百科等UGC内容、基于位置服务(LBS)数据、收集到的海量第三方的网站数据,甚至包括微博)。它拥有一座需求和民意数据的金矿。
阿里更多的是电商和信用相关的数据,在经济、金融、贸易等相关领域的影响力不容小觑;腾讯的则是社交数据,由于封闭的特性使之数据量不可能贯穿整个(移动)互联网,但其数据在舆情监测、广告营销等方面仍十分具有价值。
整体而言,百度更容易落地大数据。数据优势主要有,
1.量大、面广:百度是中国流量排名第一的网站,在移动端拥有超过14个过亿的App。它们均会形成数据的积淀;数十万台服务器组成的爬虫集群每天不遗余力地到处去收集优质数据。阿拉丁计划则是鼓励站长主动将数据接入百度,移动端则是百度云,App通过百度云的LBS等服务为其贡献数据。海量的数据支撑着样本的有效性。
2.及时甚至超前:实时反馈,数据收集、回传、分析在物联网、4G技术和云计算的支持下,将会更加容易。相比之下,传统调研有时滞。而基于海量大数据的运算结果甚至可以可以预测未来,例如Google流感,百度迁徙,Twitter股市。
3.调研对象跟踪:一般调查只是一次或者几次,很难对一个样本进行持续跟踪。而百度大数据则可以对一个对象进行持续跟踪,进行不同时期纬度的分析。前提是不影响该对象的生活和隐私情况。
4、强大的数据技术:百度是中国最具技术基因的互联网巨头。百度在建立索引过程中需要去解析网页,去理解超链接,去分析原网页文本内容,在处理搜索时需尝试理解用户五花八门的输入请求。这些事情实际上锻炼了百度对非结构化的互联网数据的分析处理能力。而百度在硬件设施,例如集群机房等方面的布局也不含糊。
腾讯的大数据应用主要是用来改进产品,广点通算小试牛刀;阿里则是要做数据的分享交易集市,在搭建数据的流通、收集和分享的底层架构。十分远大的理想,还需假以时日。百度是研究与实践结合,除了百度指数、百度沸点、百度统计、百度迁徙等成功案例之外,李彦宏去年向政治局常委讲解大数据,对百度的大数据能力也是一种肯定。
互联网是冰山一角,大数据更多在BAT之外
央视数据新闻的应用取得成功,值得肯定。但大数据的价值远不止此,它可以支持媒体收集民意,反馈真实世界,它可以帮助BAT开拓新的业务和尝试新的研究。但数据更大的想象空间则是其与政府数据结合,与行业数据结合。大数据在BAT之外。
移动互联网,设备数量爆发式增长。而4G来临,移动互联网的网络瓶颈被突破之后,包括物联网、可穿戴设备、车联网、智能医疗、智能家居等在内的智能硬件产业行将爆发,这些设备将源源不断地产生、收集、回传数据到云端。目前爆发的大数据只能算“核弹”级别,真正的大数据爆发会是“氢弹”级别的规模。
在经济方面,移动支付确保了及时、细粒度和全面的交易数据收集,进而可以对经济进行更加准确、有说服力、有时效性的监测。这会影响什么呢?CPI、GDP统计可以细化到分钟,可以进行预警管控。各个行业的交易额、市场份额数据也可自动化统计,而不再是调研公司抽样完成,后者说服力不够。
在教育方面,互联网教育收集更丰富的教育数据。可以进行师资力量的调配,可以针对学习情况对课程进行改进优化,可以基于学生学习的跟踪进行教育研究。
在金融方面,有股市股价预测、存款波动监控、基于保险理赔的大数据分析推出新产品;在工业方面,可以根据市场消费、口碑的大数据了解不同地域、不同性别、不同人群的消费行为特征进行精准营销甚至反向定制。在通信方面,可以根据人群流动情况、话务情况的历史规律动态自动调配基站载波进行节能管理。
地方政府如果能积极开放数据,例如一些信息查询连接到App,则可以提高办事效率和群众满意度;如果能积极利用数据,基于交通大数据进行城市规划、道路规划、红绿灯规划缓解拥堵,基于流感趋势预测进行疾病预警控制,基于用户搜索情况了解本地民意、关注点、舆情等,这比一些官员微服私访收集民意效率更高。
在新闻报道上的大数据应用,是互联网表达民意的一大社会进步,这还远远不够,从“春节”到“两会”,大数据是“先锋派”的新闻界在用,一些大数据先行者例如百度发挥得还不算多,用它的也不多,大都是浅尝辄止。各个行业都应该多利用大数据帮助科学决策。
大数据在经济、社会、民生等领域都大有可为。它不再是云里雾里,不再是纸上谈兵,不再是巨头的游戏,而是落到实处,不断圈入新玩家,探索新模式,创造新价值。虽然大数据在各行各业都存在且具备应用价值,但技术+数据驱动的互联网行业才是排头兵。
作者微博@互联网阿超,微信SuperSofter