团支书:数据与生活,用大数据教你做高考选择题
5月16日下午(星期一),由36大数据主办、游族网络和InnoSpace协办支持的“大数据中国行”大型系列活动第三场——“大数据应用与实践”沙龙在上海创智天地会议中心隆重举办。
活动现场,作为本场活动“神秘女嘉宾”亮相的城市数据团带来了《我们所知道的数据与生活》的精彩演讲。城市数据团用简单有趣的案例、真诚客观的数据为大家还原了生活的本质。她用大数据作为解决方案,以实际数据分析告诉大家:考试做选择题的时候选A还是选B?男人和女人,谁更能花钱?钱又花到了哪些地方?她说,数据并不庸俗,透过数据看待事物本质才是关键。
下面是现场演讲速记和PPT图文直播:
大家好,今天来到这里我也是非常激动。来之前,我们讨论都说“为什么我要作为神秘嘉宾”?因为来的都是CTO、CEO,我什么“O”都不是。
今天我是作为“神秘嘉宾”来到这里的,来之前我一直在想。我来之前曾经想过“要不要戴个面纱”?1.符合我的身份。2.是很多媒体出场的套路。但是我又担心,我觉得这样可能会跟保安小哥引发一些不必要的误会。而且这个时代,我们一直倡导“多一些真诚”。非常遗憾,今天没有“掀起你的面纱来”的体验了。不过还好,因为我们可以用数据来揭开生活的面纱。
首先,感谢主办方36大数据中国行活动,使我今天能够站在这里。之前刘老师说这场活动一共有6站。我说:“6站也太少了,难道全中国你们看得上眼的城市就只有六个?”刘老师说:“举办一场活动需要投入巨大的人力、财力、物力等。”但是我还是想,能不能用数据提供一个解决方案,使得我们可以在最短的时间内去到最多的地方。
这是我们选出来的200个地方,而这个最优线路的规划,是我们经过上万次的迭代逼近最优点。这是我们绘就的一个路线,如果沿着这个路线走,举办完200场活动需要4个月。主办方还是非常为难,4个月是1/3年。我们事情也是很多的,实在是太不现实了。
考虑到这一点,我们又绘制了一个图,每次从北京出发,每场活动不超过7天,每年举办4场这样的活动。可是即使按照最优路线,办完200场也需要很长时间。因此,我也理解主办方的苦衷。生活就是这样,很多时候不得不做出痛苦的选择。
我很穷,我只能去做题。但是我就算钱,也不能惯着它。我自认为并不算一个特别博学多才的人,因此我在答题时候的策略是“以蒙为主,以猜为主”。说到“蒙题”,江湖上有一个口诀:三短一长选最长,三长一短选最短,长短不一就选B,参差不齐就选D。
我是一个很认真的人,所以我觉得我应该验证一下。为了解答我心中的这个疑惑,我扒下了B站的题库。比如:奥巴马、奥马牛、奥马猪、奥巴鸡。但是我们真正所关注的三长一短、三短一长比率加起来也才26%左右。这个口诀到底对不对呢?
根据我们的统计结果,如果我们按照这个口诀去答题的话,正确率跟我蒙题差不多,25%左右。最有用的就是“三长一短”,因为帮助我们排除了一个错误的答案,我们调研的正确率就提高了。但是总得看下来,好像还是靠自己瞎蒙靠谱一些。
但是蒙也要蒙的有水平,根据我们的统计结果,答案在ABCD四个选项的分布并不均匀,而是呈现阶梯状上升。当我们不会做的时候,就应该选“D”。
我们经常也接到这样的投诉:“你们做的东西太碎片,太不负责任了。你们拿着这些数据资源,不能干点正经事儿吗?”
当然我们是干过的,事实上由于我们非常穷,所以我们做过很多关于消费和金钱的。比如:在座的各位觉得男人、女人,谁更能花钱?我相信大多数会说“女人”。我们还是要用数据来说话。这是我们一位不愿意透露姓名的合作伙伴,某大型支付机构给我们提供的数据。
这是2015年上海市市民线下零售消费比例占总消费的比例,我们可以看到的确女性花钱最多,青年女性花钱会更多。这似乎和我们的一些日常常识是一致的。但是有点数学常识的人都应该知道,比例不能说明问题,还是要看消费总量的。
一下子这张图就反转过来了,还是男生花钱多,老男生花钱最多。这可能反映了这样一种社会现象,女人们买买买所花掉的钱始终只是一些小钱。而中老年男人所要背负的是住宅、教育、医疗,是生活当中方方面面的支出,这才是我们透过数据看到的生活真正的样子。
除了消费,交通也是我们日常生活中非常关心的一个方面。今天我们在的地方离江湾体育场站比较近,那么我们就聊一聊上海的地铁。
这是一张上海地铁的站点和线路图,我们从中提取出了9条比较有意思的路线。这个路线是什么意思呢? 上海市到目前为止大概300个轨道站点,我们计算任意两个站点之间的直线距离和轨道换乘最短距离。
然后我们会发现这么一些有趣的现象,比如:最上面这条桃红色的线从一号线起点站到三号线起点站直线距离2.3公里,但是如果坐轨交换乘,距离是40多公里。我们做这个有什么意义呢?
就是找出上海市最坑爹的地铁线?当然不是了!如果把这个看成上海交通的情况的话,我们还可以用上海早高峰市民状况表征看。
这两张图对比,可以发现无论是在中心城区还是郊区都不同程度的存在着轨道交通供不应求的情况。鉴于此,我们就可以向上海市交通部门提出建议,我们希望在外环线周边地区增设一些轨道交通网状线路的建设,以及在轨交换乘不便、市民又需要的地方设立一些公交车。
数据可以让我们的生活更加美好。但是必须承认,并不是每个人都喜欢数据的。比如:我们知道小王子。小王子说:“ 大人们就爱数据,从来不关心事物的本质。 ”他还举了一个例子:“我看到一幢用玫瑰色的砖盖成的漂亮房子,它的窗户上有天竺葵,屋顶上还有鸽子。我看到了一幢价值10万法郎的房子。”我们可以理解小王子的吐槽,有时候数据的确看上去有一点庸俗。但是在这个房子的背后,难道就没有数据吗?这栋房子的背后是什么呢?是图纸。
这是一张设计师精心设计、精密计算绘就出来的图纸,上面都是我们所谓的庸俗的线条、庸俗的数据。但是我相信建筑师在画这张图的时候,他的心里除了数字,一定也充满了热情和梦想。如果没有这些图纸,我们不会有这么一座玫瑰红色的开满天竺葵的房子,如果没有这些图纸,我们的梦想也不可能成为现实。所以数据并不庸俗,只是在很多时候我们对数据的理解还不够深刻。
因此我们做了很多的思考,包括:数据的流通情况。它有没有可能会形成这样的生态圈,在这个生态圈中,我们的政府、大型企业、小型企业,科研机构,应该分别扮演什么样的角色。当然,仅仅思考也是不够的。俗话说:“实践是检验真理的唯一标准。”所以我们也做了很多的实践,2B的,2C的,在各个领域我们都做了一些专门的尝试。而我们最终的目标、愿景则是:用数据阅读城市,以及乃至于在这个之上的,让数据理解世界。
以上就是我今天分享的内容,我们所知道的数据生活。
最后一个问题,我们是谁?虽然我的轻率已经出卖了我,但是希望大家看到这个名字的时候依然像第一次看见它时候那样欣喜。我们是城市数据团。
End.