浅谈医学大数据(上)
编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)。
陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。
现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90%以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。
大数据定义及其特征
大数据顾名思义就是数量极其庞大的数据资料。从上世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍 (Hibert & Lopez, 2011)。2012年,每天会有2.5EB量的数据产生 (Andrew & Erik, 2012)。现在,2014年,每天会有2.3ZB量的数据产生 (IBM, 2015)。这是一个什么概念? 现在一般我们电脑的硬盘大小都以GB,或者TB为单位了。1GB的容量可以储存约5.4亿的汉字,或者170张普通数码相机拍摄的高精度照片,或者300-350首长度为5-6分钟的MP3歌曲。 那GB和TB, EB,ZB的关系又是怎样?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB硬盘容量的电脑,那1ZB就是大致等于10亿台电脑的容量,远远超出了我们一般的想象。
早期,IBM定义了大数据的特性有3个:大量性( Volume), 多样性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出: 易变性(Variability),准确性(Veracity)和复杂性(Complexity)。
作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。
大数据的6个特性描述如下:
大量性 :一般在大数据里,单个文件大量性的级别至少为几十,几百GB以上,一调查 (Russom, 2013)显示相当多的机构拥有的数据总量在10到99TB之间。用我们传统的数据库软件,1GB已经可以储存千万条有着几百个变量的数据记录了。
多样性 :泛指数据类型及其来源的多样化 (Troester, 2012),进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured) (SAS, 2014) 。
快速性 :反映在数据的快速产生及数据变更的频率上。比如一份哈佛商学院的研究报告称在2012年时,谷歌每天就需要要处理20PB的数据 (Harvard Business Review, 2012)。
易变性 :伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值 (Troester, 2012)。
准确性 :又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低 (W.Raghupathi & Raghupathi, 2014)。所谓“垃圾进,垃圾出”。没有数据保证,大数据分析就毫无意义。
复杂性 :复杂性体现在数据的管理和操作上。IT时代,随着数据来源及数据量的爆发,各种不同渠道数据的大量涌现,数据的管理和操作已经变得原来越复杂。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性。
医疗大数据的爆发
早期,大部分医疗相关数据是纸张化的形式存在,而非电子数据化存储, 比如官方的医药记录,收费记录,护士医生手写的病例记录,处方药记录,X光片记录,磁共振成像(MRI)记录,CT影像记录等等。
随着强大的数据存储,计算平台,及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。
有报告显示,2011年,单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度, ZB(约1021GB)和YB(约1021GB) 的级别也会很快达到 (IHTT, 2013)。Kaiser Permanente,一个在加州发展起来的医疗健康网络系统,就有9百万的会员,被认为拥有26.5到44PB的电子健康记录 (IHTT, 2013)。
IT时代涌现的还有各种网络社交媒体数据,比如曾经Google用来预测流感的数据。基因数据也是非常庞大的存在,一次全面的基因测序,产生的个人数据则达到 300GB (Leah, 2014)。公开发布的基因DNA微阵列达到50万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万TB级别,每一幅影像包含有5万像素值 (Fan, Han, & Liu, 2014)。
此外,各种健身,健康可穿戴设备的出现,使得血压、心率、体重,血糖,心电图(EKG)等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”,按“秒”计算。比如,一家名为Blue Spark的科技公司已经生产出能24小时实时监测体温的新型温度计贴片temptraq。
这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file),CSV,关系表,ASCII/纯文本文件等等。
同时,数据的来源也纷繁复杂,可能来自不同的地区,不同的医疗机构,不同的软件应用。不可否认,一旦理顺了多格式,多源头,呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量,强化患者安全,降低风险,降低医疗成本等方面发挥无与伦比的巨大作用。
医疗大数据的优势和应用场景
有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显著的好处。
潜在的利益包括 (W.Raghupathi & Raghupathi, 2014):
1)更多更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。
2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。
3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定病人的住院时间,哪些病人会选择非急需性手术, 哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症,等等。麦肯锡估计,单单就美国而言,医疗大数据的利用可以为医疗开支节省出3千亿美元一年。
医疗大数据的利用可以从以下几方面减少浪费和提高效率 (Manyika, 以及其他人, 2011):
临床操作 : 相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。
研究和发展 :在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。统计工具和算法方面,提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历,以确定后续的迹象,并在产品进入市场前发现病人对药物医疗方法的不良反应。
公共卫生 :分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗。
此外,医疗大数据的分析还有利于以下几方面的发展 (W.Raghupathi & Raghupathi, 2014):
循证医学 :结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据用以寻找与病症信息相匹配的治疗,预测疾病的高危患者或提供更多高效的医疗服务。
基因组分析 :更有效和低成本的执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。
提前裁定欺诈分析 :快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。
设备/远程监控 :从住院和家庭医疗装置采集和分析实时大容量的快速移动数据,用于安全监控和不良反应的预测。
病人的个人资料分析 :全面分析病人个人信息(例如,分割和预测模型)从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。
然而,根据一份针对美国和加拿大333家医疗机构及10家其他机构的调查 (IHTT, 2013),2013年,医疗机构累积的数据量比2011年多出了85%, 但77%的医疗健康行政人员对自己机构在数据管理方面的能力评价为“C”。此外,仅有34%报告他们能从电子健康记录(EHR)中获取数据用来帮助病人,而有43%报告他们不能收集到足够多的数据来帮助病人。由此可见,在北美的医疗系统中,医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。