抛砖引玉:像数据科学家那样思考
这个题目在素材库中已经放了很久了,久久不敢动笔去写。每次打好腹稿,列好提纲,却不知该不该写。之所以犹豫,原因是知道这个话题未来肯定会火。所以现在写起来,需要谨慎,免得贻笑后人。
像经济学家那样思考,是常常被人提起的。究其原因,是因为经济学在社会科学领域有一统天下的趋势,其研究范式被社会学,心理学,甚至历史性借鉴,经济学的思维方式,也可用到日常生活中,从而使得人们想变得想经济学家那样思考问题。类似的,数据科学这几年也是火的不能再火了,过不了几年,每家公司都会考虑增设Cheif AI office,那么如何像个数据科学家那样思考,也会成为热门话题的。
不愿意写这个题目的第二个原因,是在于这个题木下可以写的思维方式真的很多,如果无法分清楚主次,那么会变成名词的罗列。然而“少则得,多则惑”,少年时看倚天小说的第一章,写小郭襄炫技式的展示十种不同的武功,但每一种都没有精通,只觉得过瘾。如今看来,金庸在用暗笔预示着未来峨嵋武功终究不及武当少林。思考方式不过是方法论,不追求掌握的多,但追求收发自如。因此我也释怀了,这里的总结也不必追求全面了。本文中任何的一种思维方式,虽然只是一招一式,不成体系,但任何一招用好,都可以提升自己的思维的敏锐性。
所以这篇文章我更希望是一个抛砖引玉的起点,吸引更多的人来思考该如何让数据科学的思维方式民主化,希望能开启相关的讨论。
下面开始正文。先放几张图,让各位猜猜每张图所代表的思维方法,算热身。
第一个图对应的是抽象。相比于汇编语言,C算是一种抽象;相比于C,python则更是一种抽象。每一种抽象,都提供了一种更快更易上手的高级工具。掌握抽象思维,意味着你能直接就站在巨人的肩膀上,直接站在前人的基础上进行自己的创造。学会使用新出现的高级工具,还意味着你能赶上时代进步带来的红利,不必思考已经被科技进步的红利已解决的问题。
抽象的思维方式,意味着你能摆脱细节,整合不同维度和场景的观察。然而数据思维不等于统计,还需要找出规律,给出解释。对数据的解读,需要你具有要提到的第二种思维方式,即取舍。
有明处就有暗处,有得就有失。而数据能让我们更清楚的看到这些暗处的得失,正是因为这些得失,我们才需要数据,这个不会被我们的情感和主观好恶影响的参谋来帮我们做决策。然而只有意识到任何数据在解读时都会包含取舍,我们才能更全面的解读数据。也只有记住在面临不同质事物的抉择时记得需要搬出数据,才能避免只看到明处的当下的得,而没有看到未来的失。而在需要说服别人去做出取舍时,也需用可视化的数据来量化损益。
第三幅图说的是随机。数据思维不试图追根究底问出具体的因果,而是承认随机的力量,然后试图通过重新类似的现象来预测未来。蒙特卡罗就是这样一种计算方式,而有一类算法,则是基于随机数的。随机性的思维意味着接受不确定性,这方面有很多文章可以参考。例如 随机生存的智慧无常世界的生存圣经 (上)无常世界的生存圣经 (下)。
最后一张图说的你可能会觉得是网络。但这里的关键词是结构。不同的网络有着相同的结构,这是可以在不同领域跨界的基础。结构的改变往往关联着物理上说的相变。识别不同的结构,在数据科学里是找到“隐变量”,是通过调节网络的连接方式来在进行深度学习。而了解一个网络的最好方式,也是按结构对其分类。上图的6种网络结构,每一种会对应不同的行为规律,看清楚了网络的结构的变化,就能找到变化的拐点何时到来。
最后再说一遍,一个抛砖引玉的起点,欢迎大家在留言区讨论。而在铁哥的书中,会对这个话题给出进一步的探讨。
注:文章来源—混沌巡洋舰,作者:Peter, 版权著作权属原创者所有,以上内容不代表数据观观点。数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。
责任编辑:王超