日均访问量20亿 对话全球最流行疫情地图开发者
(原标题:日均访问量20亿是怎样炼成的? 深度对话约翰斯・霍普金斯大学全球疫情地图开发者)
每经记者 张凌霄 每经编辑 高涵
图片来源:约翰斯・霍普金斯大学官网截图
黑色的背景点缀着大小不一的红点,实时反映着全球新冠疫情的动态。由美国约翰斯・霍普金斯大学发布的这样一张可交互、可视化的疫情地图近来频繁出现在全球各大机构和媒体的报道和分析当中。
数据显示,该地图自今年1月初上线以来,日均访问量从开始的2亿次,上升到了3月初的12亿次,高峰时每日近20亿次访问。
“这张地图是如何诞生的?背后是一个怎样的团队?又如何成为了如今最权威的实时疫情参考呢?”这是很多人心中的疑问。
为此,《每日经济新闻》记者采访到了开发和维护这张数据地图的核心人员之一,约翰斯・霍普金斯大学土木和系统工程系的系统科学与工程中心(CSSE)一年级博士生董恩盛,他向记者讲述了这张地图背后的故事。
董恩盛告诉记者,一开始做这个地图只是想要收集数据来了解疫情的发展,而随着疫情的蔓延,他们决定公开数据。“团队现在所做的都是义务劳动,所有的数据都是免费开源的,这便于学术研究的开展。”
地图上线83天:从人工到自动化
去年底以来,新型冠状病毒肺炎疫情开始引发全球关注,各官方机构和学术界对于实时疫情数据的需求也随之增加。
“最早我们做这个疫情地图,单纯是想看一下这个疫情会怎么发展,我们也想收集一些一手数据,没有想到它会引起这么大的关注。”董恩盛告诉《每日经济新闻》记者。
董恩盛在美国学习已有七八年时间,从今年开始,他和另一位中国留学生杜鸿儒一起成为了约翰斯・霍普金斯大学土木和系统工程系一年级的博士生,他们的导师是本系的副教授劳伦・加德纳(Lauren Gardner),研究方向包括与流行病学相关的数学建模和网络分析等。
而正是这位导师给予了董恩盛制作可视化数据地图的建议。出于对疫情动态的关注和搜集数据的需要,董恩盛在导师的指导下在1月22日就完成并上线了最早一版的新冠疫情地图。距离美国出现第一例确认感染新型冠状病毒的病例仅仅迟了两天。
自此以后的一个多月中,长时间的连轴转工作就成了他生活的常态。“最开始的时候,我一天甚至有20个小时左右都花在地图更新和维护上,经常晚上不睡觉,这样持续了大概有一个月左右时间。”
随着疫情向全世界范围蔓延,更多的人参与到了这份地图的开发和更新中来,地图的覆盖范围开始扩大,数据的精度也被不断完善。2月1号开始,杜鸿儒也加入到了数据收集和图表的制作中。
“地图上线以后主要有三次大的更新。”董恩盛回忆道。“第1次更新是从人工更新转变成半自动化更新。第2次更新是把美国部分的疫情地图精度升高为county level(郡县级)层面,然后第3次更新就是让地图尽量全部自动化。”
董恩盛介绍,目前地图数据的更新是以自动搜集和人工审核相结合。“基本上所有的数据都是我们学校内部收集,大部分是可以实现自动化的,但是数据还是需要人工参与核实。”
“我现在大概每天只花6、7个小时在地图上,因为有很多学校其他部门的人和一些志愿者来帮我们。我们的团队目前大概有四五十号人,每个人分工不一样,现在更多的是需要编写一些自动化的程序。做人工审核这部分的工作的大概有10个人,”他说道。
他还表示:“到目前为止,我们都是在做义务劳动,所有数据都是开源免费的。虽然有很多公司都找我们对接,想给我们资助,但是我们都拒绝了。”
董恩盛 图片来源:受访者供图
日访问量20亿次背后:实时、覆盖广、开源受青睐
日益严峻的疫情形势之中,不断增加的病例数一直牵动着全世界人的心。约翰斯・霍普金斯大学新冠病毒研究中心官网显示,其疫情地图自上线以来,每日平均访问量从1月底的2亿次,上升到了3月初每日12亿次,高峰时每日近20亿次。
董恩盛介绍,大约从3月上旬开始,也就是欧洲疫情暴发和美国当地疫情加重之后,疫情地图的访问量大幅增加,服务器压力也变大了很多。
《每日经济新闻》记者注意到,除了约翰斯・霍普金斯大学,信息数据更新网站Worldometers、彭博社、《金融时报》和世界卫生组织等也都在其网站上提供全球疫情数据。
那么约翰斯・霍普金斯大学的这张疫情地图为什么会吸引到如此巨大的流量呢?
在董恩盛看来,与其他的地图相比,自己所在团队开发的疫情地图在数据精度和广度、实时性和可交互性、以及开源程度上有着一定的优势。
约翰斯・霍普金斯大学疫情地图的病例数据是由全球多个权威可靠来源的数据整合而成,其来源包括世界卫生组织、美国疾病控制和预防中心、欧洲疾病预防和控制中心、中国国家卫生健康委员会、美国的华人中文社区网站“1亩3分地”(1point3Acres)、实时信息数据更新网站Worldometers、荷兰BNO新闻网、各个州和国家政府的卫生部门、当地媒体报道以及全球最大的在线医学内容社区丁香园等。
董恩盛表示,“从覆盖面上讲,现在能覆盖到全球范围的地图不多,而其中一些地图采用的是我们的数据。各个国家和一些地方政府也有建立类似的dashboard(数据展示图),但这些主要是针对当地的情况(开发的)。”
在数据更新频率方面, 在线科技出版物Digital Trends曾对几大主要数据发布平台进行了对比。
3月18日,Digital Trends发布了文章《最可靠的新冠疫情通报平台》(The most reliable coronavirus dashboards),其中列出了约翰斯・霍普金斯大学、BBC、《纽约时报》、美国疾病控制与预防中心、微软必应搜索(Bing)和世界卫生组织六个疫情数据通报平台。文章称约翰斯・霍普金斯大学的数据地图“是我们能找到的更新最为频繁的数据展示图”。
在谈到与其他疫情地图的对比时,董恩盛告诉《每日经济新闻》记者:“微软必应的地图之前做的比较笼统,而且不开源。《纽约时报》做地图做的比较早,也一直有展示到county level(郡县级)的数据,但是他们的地图初期不属于交互式的地图。哈佛大学与清华大学、牛津大学等也合作开发了疫情地图(Health Map),但是这个地图的数据公开没有特别及时,对于研究人员来说,获取数据不是那么方便。”
董恩盛强调,目前为止地图的所有数据都完全公开,研究人员都可以获取实时数据来帮助研究。
百年名校抗“疫”:不仅是数据
拥有144年历史的约翰斯・霍普金斯大学是美国第一所研究型大学,也是世界顶级的私立大学之一,2020泰晤士高等教育世界大学排名世界第12,美国第9,学校的教员与职工共有39人曾获得过诺贝尔奖。
该大学的医学院和公共卫生学院一直在全球范围内名列前茅,知名度极高,医学院的教学研究单位约翰斯・霍普金斯医院已经连续21年被评为全美最佳医院。在整个约翰斯・霍普金斯大学体系内,从事医学研究、实践和辅助工作的人员高达2.5万人以上。
在这次疫情中,约翰斯・霍普金斯大学身在“震中”的美国,自然也冲锋在前,投身到了抗“疫”一线。其在科学研究、信息分享和病毒检测和治疗等多个领域都作出了较大贡献。
其医学院自3月开始与美国疾病控制与预防中心和学校所在的马里兰州的卫生部开展合作,向大众提供病毒检测,并开发出了新的病毒筛查方法。约翰斯・霍普金斯医院也在全力收治新冠病人。
在这样一所顶级医学研究院校中,董恩盛所在的系统科学与工程中心虽然并不属于医学院,但其研究的内容仍与医学息息相关,如董恩盛就曾经研究过美国和太平洋地区的麻疹和斯里兰卡的登革热,而这也是他和他的同学杜鸿儒得以参与到这次战“疫”中的原因。
他向记者解释:“我们和公共卫生学院的传染病(专业学生)联系很紧密,经常会和他们一起开组会,所以各方面信息都是比较通畅,平常学术方面也有一些合作。所以我觉得(我们做出疫情地图)应该是属于一种水到渠成的结果。”
自一月末以来,整个地图项目团队几乎全身心地扑在了这张实时地图上。在疫情地图更新逐渐自动化后,团队也已开始向数据抗“疫”的下一步迈进,即在数据展示的基础上进行更多的分析和预测。
此前,加德纳副教授在接受《科学》(Science)杂志采访时曾提到,自己90%的精力已经回归本职工作,即疾病的数学模型上。她认为,比起直接的追踪数据,自己还应该通过已有数据对疾病进行预测,提前通知决策者可能会出现疫情变化的地区。
董恩盛在谈到疫情地图下一步的优化方向时向《每日经济新闻》记者透露,本周会对地图进行第4次主要更新。“我们要多加一些图表,致死率、感染比例,住院数等等这些信息都会放上去。我们还会出一些风险评估报告之类的内容。”
董恩盛盼望着疫情早日结束,“这样的话我们也不用再这么辛苦的收集数据,可以留出时间做自己的学术研究。”
封面图片来源:约翰斯・霍普金斯大学官网截图