用大数据和机器学习揭开十二星座的真实面目!-36大数据
作者:wwqqer
“为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出这样的疑问。那么今天我就用星座,真实的数据和“高大上”的机器学习来帮大家分析一下原因。首先声明,我不是宿命论的支持者,也不懂占星术。本文也不是教大家如何成功,但利用本文的研究成果,可以帮助大家少走些弯路。现在网络上充斥着各种星座分析,但和本文相比都弱爆了。不管大家之前对星座分析持何种态度,我希望大家耐心读完本文之后,能对星座与天赋有全新的认识。(本文很长,分上下两部分。另外,本文中的“天赋”其实用“本性”更合适些,因为它还包括了性格等因素。)
本文的研究方法很简单:聚天下之天才而观察之。把各行各业中的天才们收集起来,看看他们哪个星座人数多,哪个星座人数少。方法简单,人人都会。但操作细节很重要,这样做出来的结果才会有意思(本文研究方法的具体细节见【附录一】)。我们先来看一下有哪些天才被我当成了“小白鼠”。“表一”总结了本文所使用的数据。
本文共选择了27个行业,总共5700多个样本,其中华人约占350个,女性约占600个,南半球约占300个。如果没有特别注明,各行业数据的历史一般是从该奖项(如果有的话)设立开始,直到2017年为止。有些行业有严格的筛选过程,比如每年评选的诺贝尔奖,各种体育竞技项目的国际比赛等,我们就可以利用它们来确定样本。然而,另一些行业没有固定的筛选过程,尤其是艺术类。所以,我们只能靠“时间”来筛选。具体来说,就是用搜索引擎搜索“历史上著名XXX”(XXX为职业名,比如,建筑师,作家等),来挑选举世公认的行业领军人物。本文使用的数据的总时间跨度大约是最近300年左右。既然介绍了数据,那么我们就来看一下使用所有的数据统计出的星座分布(图一)(注:由于每个星座内的天数稍有不同,我用得到的每个星座的人数除以该星座的天数,从而算出星座分布的日均数,以排除天数不同带来的影响。本文之后所有的计算和结论都建立在诸如此类的日均数上)。图一的四种颜色分别代表土(黄色),水(蓝色),火(红色),风(灰色)四大星象。从图一中,我们看到射手人数最少,而与之相邻的摩羯座人数最多,两者的平均数接近全部星座的平均数15.5。另外,两头的白羊座和双鱼座人数也不少。除此之外,就很难看出有其它什么规律了。如果本文的星座分析是这样的话,就太”图样图森破“了。所以,让我们接着往下看。
1关于天赋的星座分析
我把判断显著差别的计分法则(见【附录一】)运用到“表一”的27个行业上,我们就得到了“表二”(简单理解,正2分表示“人数非常多”,正1分表示“人数比较多”,负1分表示“人数比较少”,负2分表示“人数非常少”,0分则表示“人数不多不少,处于平均水平”)。请记住“表二”,因为它是本文上半部分最重要的成果!
我在表的上方标注了每个行业所可能需要的”(主要)能力”(以我这个外行的角度),有些能力是几个行业共享的。另外,“表二”是仅仅基于北半球的样本所得结果(至于为什么分南北半球,我将在本文下半部分作详细解释)。行文至此,星座与天赋之间的关系就在“表二”建立起来了。是不是表中出现2分的情况比你想的要多得多?有同学可能会问: “表中某星座在某行业得了2分,说明这个星座在这个行业的领军人物的人数要超过其他星座,会不会是因为这个星座从事这行业的人本来就多呢?” 要回答这个问题,就得调查这个行业的所有从业人员的星座了,可惜相关数据很难获得。另外,如果从事这行业的人本来就多,这本身就是一个很有意思的现象。与本文的研究并不矛盾。言归正传,鉴于此表的信息量很大,我们可以先计算各个星座的大类(科研,艺术,体育)平均得分,这样看起来可以更直观一些。如下表所示,在科研方面,处女座和狮子座这两个相邻星座分别占据着科研的头名和末名。在艺术方面,白羊座是当仁不让的第一,而双子座,处女座和摩羯座则并列最后。在体育方面,摩羯座表现突出,而天蝎座则表现不佳。总的来说,这些星座如果在某一方面特别强,那么在其它方面就会差一点,甚至很差。反倒是巨蟹座和天秤座虽然没有最强的某一方面,但是在全部三个方面都优于平均水平,属于均衡发展型。
一,白羊座(代表人物:欧拉,格里高利·派克,黑泽明,卡拉扬,达芬奇,梵高)
白羊座在艺术类得分之高,无人能出其右,尤其是需要运用感情和强烈的肢体语言来表达的表演,指挥和钢琴演奏。再加上导演和绘画,网络上对白羊座的评价是:冲动,积极,思维活跃。我觉得还是有些靠谱的。同时,也说明他们擅长表达和诠释事物的内涵。这样才能做出出色的数学研究,去诠释世间美妙的真谛!白羊座在计算机和围棋上得分很低,说明他们不喜欢按部就班地进行计算和算计。
二,金牛座(代表人物:高斯,萨缪尔森,哈耶克,贝聿铭,范斯哲,奥黛丽·赫本)
金牛座在艺术类中的导演和时装设计得分比较高但绘画得分一般,说明他们画面感很强,而且善于运用到实际中。金牛座在斯诺克和宇航员这两项中得分较高,说明网络上流传的“金牛座可靠,有耐心”并非空穴来风。优秀的斯诺克选手需要时刻保持绅士风度,斯诺克本身就是一项需要克制情绪的运动,如果过度兴奋或者过度悲观,都难以打好。至于宇航员更是如此。众所周知,宇航员的选拔条件非常严苛,必须具有非常坚强的意志品质和忍耐力来面对各种恶劣的生存环境。金牛座在网球项目上得到了为数不多的负2分,这更说明他们 “稳重,缺少爆发力” 。至于金牛座的其它性格,比如,吝啬,古板,我们无法从行业表现中得到答案。
三,双子座(代表人物:纳什,赫伯特·西蒙,特朗普,吴清源)
双子座不擅长做“大生意”,而喜欢“耍小聪明”,摆弄“小玩意儿”,比如,下个棋,照个相。他们也不擅长需要热情冲动的行业,比如,表演,绘画,时装设计等,而且在斯诺克上表现也不好。这倒挺符合网络对双子座的评价:“机智,善变,不安分”。即使是做研究也是关注“小”的方面,比如,在诺贝尔经济学奖获得者中,有10位是双子座的,竟无一人研究宏观经济学。倒是有4人研究博弈论(John Harsanyi,Lloyd S. Shapley,Robert Aumann,John Nash),4人研究微观经济学(Maurice Allais ,Herbert Simon,George Akerlof,William Vickrey)。
四,巨蟹座(代表人物:图灵,梅丽尔·斯特里普,乔治·阿玛尼,伊隆·马斯克)
巨蟹座在表演,尤其是时装设计中得了高分。如果把表演细分成男演员和女演员,巨蟹座在女演员分布中的得分比在细分前还要高(仅次于天蝎座,“蛇蝎美人”原来是有数据支持的!呵呵。)。再结合他们在时装设计中的抢眼表现,果然如同网络所说,这是一个“母性泛滥”的星座!照这个情况,巨蟹座不应该在钢琴演奏中获得低分。获得低分的原因可能是因为它们对于枯燥的反复训练缺乏坚持下去的毅力。这一点得到了宇航员的佐证。在重压之下,巨蟹座早早地就躲进了自己的蟹壳中,呵呵。尽管如此,巨蟹座因为他们的小心谨慎使得他们在玩德州扑克时立于不败之地。难道这是传说中的凯利公式(KellyFormula)的真实写照?(注:在重复赌局中,凯利公式根据赢输的概率及获利多少来决定投资(赌注)的大小使得(长期的)总预期收益最大,使用此公式就永远不会有破产无注可投的情况出现。)而且,巨蟹座的小心谨慎帮助他们在科研中取得成就,巨蟹座在科研中的得分超过十二星座的平均水平。
五,狮子座(代表人物:香奈尔,聂卫平,雷-达里奥,索罗斯,李嘉诚)
自信大胆且具有大局观的狮子座在商界和投资界傲视群雄,果然名不虚传!这点也体现在了下棋,建筑,文学和时装设计上。另一方面,过分自信的狮子座就会变得武断鲁莽,做事不仔细考虑,观察力不强,这一点在高尔夫球和哲学上表现尤具代表性。与之相关的,他们在绘画,作曲,物理,医学表现也不佳。
六,处女座(代表人物:黎曼,安藤忠雄,歌德,小泽征尔,巴菲特)
处女座是个很有意思的星座。他们在科研类中的得分是十二个星座里最高的,尤其擅长关注结构里的细节。而他们在艺术类的得分是最低的之一。另外,如同金牛座,处女座的忍耐力也是杠杠的,他们在斯诺克和宇航员这两项中取得高分。由此可见,处女座既仔细又有忍耐力,但不按部就班,还有很强的观察力,这是他们在搞科研时的制胜法宝。但另一方面,不感情用事的处女座缺少艺术创作中的那“神来一笔”。处女座在网上的评价, “完美主义,吹毛求疵,头脑清晰”。这一点在这里应该是说得通的。
七,天秤座(代表人物:霍洛维茨,李云迪,李安,艾略特,张爱玲,杨振宁)
天秤座的平衡感强,擅长分析处理结构问题,比如,化学,建筑,尤其是文学 。天秤座出人意料地在网球项目上得了高分,这可能也得益于他们的平衡感吧。在十二个星座中,天秤座在27个行业里得负分最少的星座,没有明显的短板。这里,我们无法验证天秤座是否如网络所说“平易近人,轻浮,优柔寡断”。
八,天蝎座(代表人物:费雯丽,居里夫人,比尔盖茨,毕加索,莫奈,屠格涅夫)
天蝎座在哲学和绘画上都得到了超高分,而且在表演方面也很强。这表明他们敏感,思想复杂,具有很强的洞察力。仅凭他们在哲学上的优异表现,天蝎座就无愧于十二星座中“最理性星座”的称号!由此可以推断,他们已把感性的绘画和表演提升到了理性的高度。然而,过分强调“形而上”的天蝎座在实际科研(比如,计算机,化学)及其它行业(比如,钢琴演奏,网球,斯诺克)中显出了缺乏耐心,不注意细节的弱点。天蝎座不擅长变魔术,应该也是理性思考的后遗症吧。这里无法验证网络上评价天蝎座的“疑心,善妒,报复心强”。
九,射手座(代表人物:劳伦斯萨莫斯,马克吐温,斯皮尔伯格,李政道)
与天蝎座正好相反,射手座在哲学和数学方面表现不佳,这可能与他们热情开放的性格,以及缺乏缜密思维的特质有关。而且,缺少耐心和忍耐力的他们在斯诺克,宇航员,及商业等行业中难有建树。所以,网上评价射手座“浮躁,做事易半途而废”,好像有点道理。不过,值得一提的是,射手座在经济研究方面的表现突出。一共有六位诺贝尔经济学奖获得者,以及五位克拉克奖获得者。 与双子座相比,研究宏观经济学的射手座经济学家的数量明显增加,比如,Finn Kydland,Gunnar Myrdal,Eric Maskin,Trygve Haavelmo,Martin Feldstein,Lawrence Summers等。有意思的是,双子座与射手座在经济研究上都表现很好(尽管擅长的方面不同),但他们在商业领域表现都很糟糕。
十,摩羯座(代表人物:牛顿,史蒂文·索德伯格,舒马赫,老虎伍兹 )
摩羯座是十二星座里唯一一个在德州扑克和(尤其是)F1赛车都得高分的星座,难怪他们被网上评为“最有原则”的星座。如同小心谨慎的巨蟹座一样,脚踏实地的摩羯座在计算机研究领域优于其它星座。然而,专注有余的摩羯座想象力和创造力有点不足,这点可以从他们在建筑,时装设计,和魔术上的不佳表现看出。与此相关,分析处理结构问题也需要想象力和发散性思维(比如,化学,建筑,文学,尤其是物理),但过于严谨的摩羯座并不擅长此类问题,即使有牛顿这样的巨擎撑腰也无济于事。
十一,水瓶座(代表人物:保罗纽曼,莫扎特,舒伯特,狄更斯,爱迪生)
都说水瓶座充满智慧,可是“表二” 并没有反应出这点。相反,水瓶座在科研类和文艺类的得分都处于十二个星座的下游。在体育类中,也只有高尔夫球是个亮点。崇尚自由的水瓶座确实不适合从事德州扑克,斯诺克和摄影等需要克制情绪的行业。顺便提一下,水瓶座在表演行业中处于中游,但如果把表演行业细分成男演员和女演员,水瓶座可以在男演员中排第二位(仅次于白羊座),接近一个标准差。所以,水瓶座的男同学们只要负责耍帅,打打高尔夫球就行啦。
十二,双鱼座(代表人物:乔布斯,默多克,肖邦,爱因斯坦,雨果,加加林)
在我看来,双鱼座大概是十二星座里最神奇的星座了。首先,与天蝎座相似,双鱼座依靠缜密的思维来思考“形而上”的哲学问题,但面对需要具体计算的计算机研究和德州扑克时都表现不佳。但与天蝎座不同的是,双鱼座有较强的忍耐力和专注力,这帮助他们在商界大展身手。而且,双鱼座是唯一一个既擅长高尔夫有擅长网球的星座,真是“静如处子,动如脱兔”。更重要的是,双鱼座还是个会耍酷炫魔术的高手,说明他们在理性之中还带有感性,可能还具有一定的胆量。总之,许多事物的两面性都体现在这个星座中,真是件奇妙的事情。这些表现与网络上对双鱼座的评价“感性,滥情,意志力薄弱”很不相同。我觉得《名侦探柯南》中那个神出鬼没,风流倜傥的怪盗基德更像是双鱼座的(仅管他被设定为与漫画作者本人一样的双子座),呵呵。
在这里我想插一个花絮:大家可能知道菲尔兹奖首位(也是迄今唯一一位)女性获得者,伊朗著名数学家玛丽安·米尔扎哈尼(MaryamMirzakhani)最近(2017年7月)英年早逝,年仅40岁。当我在阅读她的生平时(见【1】),发现了一些有意思的事情。玛丽安的家里没人是科学家,她从没想过要学数学,但一直被鼓励自立和追求兴趣。跟所有女孩一样喜欢看小说。想当小文青的她非但不是学霸,还对数学很头痛,老师也说她没天分。直到高二,她才在一个偶然的情况下发现了自己的数学天赋。米尔扎哈尼说自己很慢,是个“慢”数学家。到高二才发掘天分,解题也是耐心组合出办法。当她从事数学研究时,她的心思都在研究上,说自己是“慢人”,不靠灵光一闪解决难题,“有些问题已经研究了十几年,但经过数月甚至数年,你才能发现问题不同的一面。”有斯坦福大学同事说,她最独特的是研究方法,能创新地将不同事物连接在一起,对难题特别兴奋,毫无惧色。这种“慢”和“稳”的性格不光在工作上,生活上也一样。玛丽安的丈夫也是科学家。两人一起去跑步。老公高大健壮,一开始跑前面,她体格娇小,一直没有放慢脚步,半个小时以后,老公精疲力竭,她还保持着最初的速度。米尔扎哈尼给世界留下过一句话:“只要有耐心,孩子总会发现数学之美。我不认为每个人都应该成为数学家,但我相信许多人不曾给数学一个真正的机会。”当我读完她的生平,我几乎能90%地肯定她应该是金牛座。于是去查了她的生日(5月3日),发现果然就是!当然,这毕竟只是一个个例。在上文的星座分析中,我不做个例分析,是为了强调结果的统计属性,避免给大家造成“以偏概全”的错觉。不过,玛丽安·米尔扎哈尼的例子是最近发生的,且非常具有传奇性,所以就谈一下,在下文中还会被提及。言归正传,这里需要指出的是,我对这27个行业中的大部分都不是很熟悉,所以,只能从外行的角度给这些行业加上所需的能力。这样能够帮助完成分析,并尽量避免无法解释某些星座表现的情况发生。每个人对这些行业的理解不同,就有可能导致分析的结论不同。非常欢迎大家提出宝贵意见。上述的十二星座分析只停留在文字描述,下面我要对“表二”进行量化分析。对数学不感兴趣的同学可以略过,直接跳到小结部分。
2星座量化分析
上文“表二”中的每一列是一个行业,也可以看成是一列数组,所以我们可以计算它们之间的关联系数。按道理,这应该是一个27乘27的相关系数矩阵,但篇幅有限,我只报告相关性最高的那些行业。而且,我比较关心大类与大类之间的行业相关性,而不是大类内部行业的相关性(比如,数学和物理属于科研大类,绘画和作曲属于艺术大类,等等)。注意,这里的相关性不一定是我们平常认知里行业间的相关性,而可能是由于十二个星座在行业中的表现造成的相关性。所以,我们会看到一些出乎意料的结果。“表五”列出了相关系数大于0.5的行业(不等于零的显著性都超过至少95%)。其中有些比较容易理解,比如,商业和投资。有一些乍看不明白,但稍微想一下就理解的,比如,德州扑克和计算机,哲学与绘画,宇航员和斯诺克。但有好些就不那么容易理解了,比如,相关系数高达0.83的指挥与数学,以及紧接着的作曲与医学(相关系数0.82)。就拿指挥与数学来说,其相关系数高的原因是白羊座在这两项都得了高分,而双子座都得了低分,其它星座没有一高一低相冲突的情况出现。
纵向看完“表二”后,我们再横向看一下。表中的每一行也是一列数组,按道理,我们也可以计算行与行的相关性。不过,我在这里使用一个新方法:层次聚类(Hierarchical Clustering)。这个方法的原理很简单:每列数组在初始时刻各自为一个类别,然后由下往上(agglomerative),每一次迭代选取距离最近的两个类别(这里使用的是Euclidean距离),把他们合并,直到最后只剩下一个类别为止,这样“一棵树”就构造完成了。这种方法的好处是不用在一开始就确定聚类数(number of clusters),可以等到建立树形图后再确定。这也是机器学习中的一种分类方法(非监督学习)。“表二”的聚类树形图和8个聚类(红框)如下。
最后,我对“表二”进行主成分分析(PCA,也属于机器学习中非监督学习的一种)。如“图三”所示,第一个因子(PC1),也是最重要的因子,只能解释“表二”中20%的方差。要想累计贡献率达到90%,必须用到前8个因子。这种情况是符合一般认知的,因为我们知道十二个星座之间有明显差异,很难用一两个因子就解释全部信息。在进行主成分分析时,原有的分类被打破,所以很难解释所得到的结果。这也是主成分分析的一个弱点。
3小结与应用
我在本文(上半部分)考查了星座与天赋之间的关系。通过观察十二星座在总共27个行业中的表现,我们把每个星座和它们各自的强项和弱项联系了起来。其次,借助星座们在行业中的表现,我对网络上的星座评价进行验证。有些星座经过验证是靠谱的(比如,双子座,狮子座),但有些我们只能验证一部分,甚至于还有一些我们无法验证(比如,天秤座,双鱼座)。最后,通过量化分析,我们了解了十二星座大致可以分成8个聚类(cluster),其中有些星座比较相似,比如,水瓶座与双鱼座,还有金牛座与处女座。但有些星座与其它星座比起来更不同一些,比如,双子座,摩羯座,狮子座,白羊座等。另外,我们需要至少8个主成分因子,才能使累计贡献率达到90%。看到这里,有同学可能会问:“我只是个普通人,你分析了一大堆关于天才的数据,那与我何干?” 这个可以从三方面来回答:挖掘个人潜能,改进个人短处,以及人际交往。虽然本文探讨的不是如何挖掘普通人的潜能,但本文的研究结果可以提供一个参考。从体育类及艺术类行业来说,一个初入某一新行业的成年人,要想通过挖掘潜能成为这一行业的领军人物不太现实,但经过一定课时的基本训练,把潜能发展成兴趣爱好还是可行的。当然,我不是说其它星座的同学不能做,而是说这些星座的同学的性格比较适合玩这些项目。举个例子,机智灵巧的双子座同学可以试着学学围棋,玩玩摄影。小心谨慎的巨蟹座同学可以玩玩德州扑克。冲动热情的白羊座同学可以开发的项目就更多了,从表演,绘画,到钢琴,甚至导演。在如今“自媒体”横行的时代,白羊座有了一个很好的施展的平台。说不定哪天,又会出来一个类似papi酱(水瓶座)的网红。另一方面,本文可以帮助大家更有的放矢地改进自己的短处。比如,小心谨慎的巨蟹可以试着加强韧劲和自信,在工作和学习中有意识地大声说出自己的想法,遇到困难时不轻易打退堂鼓。当然,我不是说巨蟹座的同学一定就缺乏自信,而是说这种情况较其它星座更有可能发生。而且,我们也不一定要改进得与金牛和狮子不相上下。如果能做到他们的一半,甚至只有三四成,那和原来的巨蟹比起来,已经是不小的进步了。其它星座也可仿效此方法对自己的短处进行改进。无论是挖掘长处,还是改进短处,后天的自我完善和自我升华,无论对个人还是对国家,都会有是有益的。本文的研究结果也可以应用于平常的人际交往中。举个例子,如果你老板(公司里或学校里)是狮子座,那就经常性地给他(她)带高帽子,让自信的狮子更出风头。这样你即使出点小错,粗心的狮子也不会在意的。相反,你老板如果是处女座,那你只能辛苦一下,必须比他(她)还仔细,否则既仔细又有忍耐力的处女会把你逼疯的。又假如你老板是白羊座,那你做事最好不要拖沓,冲动的白羊总是希望立马看到效果。如果你老板是双子座,那他(她)倒不会怎么为难你,因为他(她)自己也飘忽不定,不过你要时刻准备着应付他(她)不知从哪儿冒出来的“鬼点子”。再假如你老板是金牛座,那就要避免与他(她)正面冲突或争论(即使你是对的一方),否则他(她)会和你死扛到底。剩下的星座,我就不一一点评了,大家自己慢慢琢磨吧。以上这些观点也适用于恋爱中的男女朋友!而且,本文的量化分析结果也可以帮助大家“速配”。比如,金牛座和处女座,还有水瓶座和双鱼座这两个容易凑到一起,可能他们之间的思维方式和性格比较相似一些吧。不过,如果我说得不准,大家不要怪我,要怪就怪机器学习吧,呵呵。最后,在结束本文上半部分前,再次提醒一下大家,以上所有结论都建立在北半球的数据上,至于南半球的结论如何,以及为何要南北半球分开分析,这些都将在本文下半部分讨论。当然,下半部分要讨论的远远不止这些,内容非常劲爆,敬请期待!
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 用大数据和机器学习揭开十二星座的真实面目!