郭全中:对大数据的认识该正本清源
近几年,大数据已广泛应用到互联网舆情、互联网营销、内容分发、互联网金融、人工智能、智慧城市建设等领域。然而,在大数据高速发展的同时,也出现鱼龙混杂、忽悠盛行的不良现象:有些机构和企业根本没有大数据能力、但也为赶时髦而自我标榜为大数据公司;有人神话大数据,认为其无所不能;有人认为大数据只研究相关关系而不研究因果关系;还有人认为只要有数据,就万事大吉。下面就让我们来逐个讨论,反驳上述的片面认识。
真正的大数据公司并不多。纵观世界大数据发展实践,目前的大数据公司主要分为两类:一类是自身就拥有大数据的公司,如阿里巴巴、京东、腾讯、今日头条、新浪微博、北京一卡通公司等,其中绝大多数为互联网公司;另一类则是为大数据挖掘和分析提供工具和能力的公司,如拓尔思、百分点等等。事实上,在业界的实践中,不少公司既没有数据,也没有数据解决能力,仅仅是为了更好的估值和自身的品牌塑造,纷纷给自身披上大数据的外衣,给行业和用户造成混乱和困惑,这从根本上不利于大数据产业和大数据公司的健康发展。
大数据仍处于初级阶段。 虽然大数据必将成为整个社会的底层架构和标配,社会和经济的方方面面必将被大数据所重构,且大数据在各行各业的应用正得到深化,但上述活动仍处于进行时或将来时,并非既成事实。在这一爬坡过坎的阶段,尤其需要大数据从业人员求真务实、脚踏实地地推进大数据产业的发展,不能拔苗助长、饮鸩止渴,否则只能给大数据产业的短期发展注入太多泡沫。一旦泡沫破裂,必将会给大数据产业带来很大的破坏作用。
大数据既研究相关关系,也研究因果关系。在大数据领域流行的说法是“大数据只研究相关关系而不研究因果关系”,无疑这是很大的认识误区。从本质上讲,大数据从全新的哲学视角给我们提供了更多认识世界的方法,使我们从之前只能研究因果关系而不能研究相关关系,扩大到既能研究因果关系也能研究相关关系。
不过,如果单纯从相关关系出发,就可能导致谬误百出。例如,一些研究人员希望通过分析北京市中小学生的交通数据与其所在学校的相关性,计算学生家庭住址与学校距离的合理区间。如果仅研究因果关系,就会得出“北京市的学校布局很合理而不需要优化调整”的结论,这无疑与北京市优质教育资源分布不均衡的现状相悖。为什么会出现这样的悖论呢?原因在于,北京市很多家长为让孩子接受更好的教育,纷纷选择在教学质量好的学校周边买小户型房屋或租房居住,而正是这种教育资源的不均衡导致“天价学区房”的频频出现。
大数据尚需要算法和专家观点的支撑。 很多人认为,只要有数据就可以解决一切问题,其实如果仅有数据而没有好的算法和专家观点,数据只能成为无用的废料。
在大数据的运用过程中,海量的数据是基础和前提,但算法、模型以及专家观点一样都不能少。否则,即便输入同样的数据,出来的也会是大相径庭的观点。例如,虽然很多“楼市专家”都占有大致相同的数据库,但对房地产市场走势的判断却大为不同。如果一味听信某些“平民经济学家”的理论,很多人可能正在四处漂泊,租房居住。反之,若能预见房价上涨的趋势,您不仅可解决居住问题,还有机会实现财务自由。
总之,大数据的威力将远超我们的想象,但是也需要给它一段时间来完善,更需要警惕一些似是而非的错误观点!
(作者是国家行政学院社会和文化教研部高级经济师、管理学博士)
责任编辑:陈近梅