大数据不是万能良方,发挥不出价值就只是一片坟墓而不是金矿
由立德基金会主办的第三届“全球青年大会(Global Youth Summit)”于2017年7月16日在京举办。今年大会的主题为“未来的商业”,与全球青年从数字化来剖析,回到商业本源——奏出数字化误区,在本源上解决问题,走可持续发展路线,导师携手全球青年打造另类商业体验。
会上,电子科技大学互联网科学中心主任周涛做了主题演讲,以下为演讲实录。
刚才周伟已经讲了,当下一个现象,商业计划书好像不提人工智能不好意思拿出来。其实大数据也是如此,是一个热词,它现在火热的程度甚至超过了产业界实际的贡献。
第一,大数据的企业多的不可思议,任 何一 家公司只要能够打开一个表格它都号称自己是一家大数据的企业。
第二,大数据给了我们华而不实的感觉,因为很多公司做了大数据的项目但是好像没有踩着大数据的清风 扶摇直上 。所以我今天作为大数据行业里面的研究人员,想给大家谈两个现实,三点建议。
第一个现实 , 数据它首先是成本,其次才是价值。 我们有的时候在新闻媒体中看到了一些了不得的互联网企业,他们用不太多的数据产生巨大的价值。但是在银行、运营商、政府,虽然有更多、更好的数据,却没有产生出应有的价值。我们看到机柜里面摆着无穷无尽的数据,但是却有一种感觉,不是到了金矿区而是到了坟墓区,因为数据沉睡在那里没有产生价值。我们自己规划企业大数据计划,要看它会不会带来真正的价值? 要让价值作为一个取舍对象。而不是为了建一个数据中心而建一个数据中心。
所以 我想提的第一个建议就是,我们一定要想办法用一些示范性的应用创新来拉动数据的价值,而不是为了建一个平台而建一个平台。
第二个现实,计算机它和我们人类处理同样的问题,但是采用的是完全不同的方法和思路。 我们千万不要试图用我们的理念去束缚计算机。比如没有阿法狗之前,很早之前计算机就开始下棋,最早下棋的思路是搜索+优化,它本质就是尽可能穷尽一切的可能性。即便在这种方法下计算机下棋比人下的更好,我们是中是可能学到下棋的艺术。计算机还有一套方法不是搜索,我们叫做机器学习。它是在一大堆数据和特征中,重新做特征提取,通过非线性的变化,两两三三特征的组合,形成几十万到几百上千的特征,然后用很多学习模型。比如神经网络、回归分析,然后找到从特征到结果之间的关联,然后把这些模型重新做集成学习。这种处理几十亿上千亿的特征,用几千上万进行学习,和我们人类思考问题的方式是截然不同的。
所以我给大家提的第二个小建议,我们要把大数据和人工智能用来解决企业问题的时候,我们要抓住的是企业真正要解决的目标是什么,然后我们要去尊重计算机的方法。
比如打一个广告,我们希望广告的点击率足够高,或者再进一步说,我们希望有更多人点了这个广告之后,能够购买你的商品,它可能是体现在搜索引擎中的推荐,可能是体现在我们电子商务网站中的猜你喜欢。这个时候懂计算机懂人工智能的人把这个问题转化成学习怎么广告排序,来提高你的点击率,或者把购买和销售额作为我们的目标。但是有一些企业主,他有一套自己的逻辑。他想我先对消费者做一个画像,我这个烟酒多大人买?是白领还是穷酸?他做这个人物画像之后,用这个人物画像,从所有人里面把最可能买的人选出来,给他们打广告。
这是非常愚蠢的想法。因为他完全在用人的脑子去思考计算机做的事情,计算机能够处理上千万上亿的特征,为什么做一个如此粗糙的画像?对于你让你的东西卖的更好,这种思路就是把人的想法去套计算机,效果往往很差。
但是反过来一个市场的负责人,他想要做地面广告的投放,比如路牌广告。或者产品的负责人想设计新的产品,面对90后00后的消费者,这个时候他需要人物的画像,需要我们的消费者的画像和我们竞争品牌的画像。他可能不需要广告,线上广告投放的点击率多高。这个时候画像尤其是不同品牌之间画像差异,以及这么多年消费者画像发展的趋势,就成为他最想要的东西,他可以让计算机去完成这样的事情。
我讲这个例子是说,我们千万不要用我们的条条框框来限制计算机,也不要猜测计算机到底需要什么东西?我们只要抓住我们真正的商业目标就可以了,其他的事情可以尊重计算机,让他去做。因为时间关系这个问题我们在台上还可以谈,最后给大家三个建议。
第一个建议,我希望大家在考虑一个数字化项目的时候,或者考虑大数据项目的时候,我们要以应用作为牵引,以目标作为导向,不要受什么人的蛊惑建大数据的项目。
第二个建议,我希望大家不要用自己人类的思维方式去束缚计算机。 举个例子比如想象有一天,当计算机统治了我们的世界,今天我们在这儿交流,大部分人用中文,霍夫曼用的英文我们能听中文,也可以听英文。我们和女朋友写情书我们用中文,我们有时候在国外我们可以说意大利语,但是如果有一天计算机说别说那么多语言,我们交流就用C语言,你写情书谈恋爱我们开会做报告也用C语言,你说我们还能用C语言思考我们的人生吗?我觉得不能。大家不要用自己的人类语言套计算机身上,计算机在提供可预测性的时候,不一定提供可解释性,在提供可解释性的时候,不一定给出非常好的预测建议。
第三个建议,我想提醒大家大数据不是万能的。 有一位哲学家他曾经回顾精神分析和后现代主义的时候,他曾经说在人类发展的历史中有时候某些哲学思想,会突然涌现出来,就像是宏大的概念。那一切的聪明人把这些概念抓住,好像找到了万能钥匙,可以开一切的门,但是时间20年30年50年过去了,很多顶尖的哲学家在宏大的概念中迷失自我,没有做出应有的贡献。人工智能和大数据也是如此,它的应用是有局限,不能替代我们的方方面面。好像导师讲的,不能替代我们体验一个爱情,不能代替我们经历痛苦,不能带给人格力量的提高。我最后一个建议就是我们要了解大数据的边界,在可以应用的地方应用它,可以拓展的地方可以拓展它,在不能应用不能拓展的地方就停下来。