Teradata大数据首席顾问肖立宏:国外医疗大数据实践
[导读]本文选自Teradata大数据首席顾问肖立宏于2016年9月3日在“首届清华京津冀医疗健康大数据高峰论坛”上所做的题为《国外医疗大数据实践》的演讲。
演讲原文
大家下午好,我从一个服务商的角度来介绍一下在国外医疗大数据都有哪些成功的实践。我先给大家讲一些概述性的内容,然后介绍一些例子。
大数据应用有一个很重要的前提,就是不同对象在各自不同的立场上是有共同点的,医疗保健行业里的每一个利益相关方都是寻求降低自己的风险和成本并提高收益。大数据研究目前主要有三个方向。一是随着慢性病和医疗成本不断上升,用大数据提升个体医疗服务并减少慢性病发生的概率;二是提升公共服务,比如应对大规模流感这样的疾病;三是新技术相关的变革。
大数据作为一种技术手段可以充分地把业务和技术结合起来,使医院、卫生部门、保险公司还有每一个个体得到相应的价值。
大数据中的“数据”主要有三类,既有传统的数据,比如保险公司的会员数据和客户信息,以及交互数据比如呼叫中心数据、病人和医生之间交互的数据等,也有非传统的数据,比如医嘱或微博,还有一些结构更加复杂的数据,比如病历、B超、核磁共振数据等。
数据要与分析方法相结合结合,大数据中的分析方法除了传统的医疗统计学方法外,还可以使用大数据判断等方法,以取得更加好的分析和应用效果。
下面我介绍一些国外医疗大数据的典型应用。
这是一个传统医疗保险方面的应用。保险公司发现有很多人的医疗赔付数据存在问题,可借助大数据的平台和方法对理赔数据等进行一系列分析,建立预测模型,判断每一例理赔记录是不是发生了超赔付。
这个分析过程其实很简单,把客户所有的行为记录都进行路径分析,得到每一例赔付的行为路径,对这个行为路径通过文本分析判定,就可以知道某一种模式和路径之下是否发生了超赔付。这里面的文本分析模型如下所示,可以得到很多容易发生超额赔付的典型路径。
进一步分析可以得到典型行为,比如重复赔付、人工赔付行为,会对超额赔付有影响。重点发现凡是跟某一个药店相关的超额赔付都是百分之百,于是我们可以设立一个规则,凡是涉及到这家药店的都罗列出来,通过一系列关联形成与超额赔付相关的行为,这样在后续对超额赔付进行遏制。这个例子中的这家国外保险公司通过大数据方法,每年减少了至少5000万美元的超额赔付损失。
第二个例子。医院都希望减少一些不必要的治疗,这样既为医院节省资源,也为患者节约成本。
这是国外的一个典型应用,用所有的住院病人的信息做了一个住院流程的分类,用文本分析的方法从患者的病历数据中把相似的人分成不同的群体,判断出哪些人的医疗过程比较合适,而哪些人是超额占用了资源。
如下图所示的两类为例,每一个群体都是医疗大致近似的一些患者,对一个特定群体,在边缘上的点都是不必要的医疗程序,比如测量身高或者测量血型等不必要的流程。
通过对医疗时间的长短做统计,可以看到哪些是根本没有必要的住院程序,而哪些是特别有效的程序。
第三个例子是针对病人个体的典型应用:疾病,药和基因分析。
首先是疾病类应用。这是一个疾病发病路径分析的完整例子,分别描述了从疾病、用药到基因分析的全过程。该数据主要由美国TRUVEN健康信息分析公司提供,他们分析了两类疾病,第一类疾病是肥胖症和哮喘之间发病路径的关系,其中有是肥胖性发散,但他们之间有非常密切的关联关系,最终导致哮喘的路径一定会经过一个过程就是肥胖症。
肥胖症有很多用药方案,比较典型的是用胰岛素,几类降糖药,二甲双胍和其他药物。通过对一些比较有效的治疗方案进行路径分析,可以看到哪些治疗路径对肥胖症是比较有效的。
第三类应用是基因的关联分析,这是对两类疾病的基因组进行关联分析。对哮喘和肥胖症做患者分类以后,分别针对患者基因的关联关系进行网络相关度分析。发现这两类疾病之间在很大程度上存在基因组相关性。
上面的例子从疾病到基因进行了一系列分析,对这两类具有高度关联性的患者是可以进行特征的分析工作的。
当然这些案例主要是基于我们作为一个中间商所提供的一系列的工具和方法来实现的,这在国外的每个领域都有应用。今天我讲的内容就是这些。谢谢大家。
问答记录
提问:我刚才听到您主要是分享了四个方面,我想请教一下这四种模式在中国落地哪个会更快一些?
肖立宏:不仅仅是医疗保险,其他保险也做得比较早,实际上保险这块有很多相对比较超前的应用,在大数据之前就有很多保险欺诈的探索。刚才讲的理赔是比较传统的应用,加上大数据技术可以丰富源头,这是最常做的。目前很多比较新的应用需求都是来自医院和医疗机构,他们希望对一些重点疾病做大数据分析。比如说以前有一些新闻,孕妇经常会发生一种致死率很高的典型疾病,人们希望对这个高危疾病进行预警,哪怕是提前20分钟也是可以保障生命的,这方面的应用比较多,我们做了好几个需求。
提问:您之前举的跟药相关的分析报告的例子,其中的文本分析方法具体是用什么来进行分类的?第二个问题是同一个数据对不同的企业和单位有不同的追求点,现在对数据处理企业来说这些数据分析如何适应那些企业的要求,这个企业想分析的是这个关联度,在数据处理的过程中有没有企业来进行衔接?
肖立宏:这个文本分析方法是两块,第一是把他的行为生成一个路径,这样一个路径用文本的方式表示出来,每个客户的路径跟他们之间有一定的相似度,然后对容易发生欺诈的或者是超额的进行监督。任何一个需求都是跟业务分析是紧密相关的,整个数据整理过程也跟业务需求是紧密相关,同样一份明细数据,两个不同的业务需求处理的方式完全不一样,包括取样和整理都是不一样的,具体到每一个单位来说,因为每个单位的需求都是不一样的,因此这没有一定之规。
提问:我想请问一下您怎么评价我们国内和国外大数据应用发展的水平?第二个问题是国内外的数据获取的方式跟难度有什么区别吗?因为我觉得国内的数据要拿到是比较困难的。
肖立宏:总体来说我感觉国内大数据的发展水平至少不比国外慢,也不比国外差,特别是在某些行业,如互联网行业,甚至是超过国外的,其他的行业也没有落后。第二个问题,国内目前确实存在数据获取困难的问题,但政府一直在推动开放,并且现在包括一些重要的数据持有方也在想尽一切办法把数据进行变现,典型的是电信行业,一些价值非常高的数据,只要能享受非常好的变现方式,能解决数据安全性或者是去隐私的手段,这种数据在将来很短的时间内可能会得到很好的开放,因为隐私性很好的数据要直接拿出来还是蛮有风险的,还有一些技术手段需要解决。
校对:丁楠雅二校:刘纯
编辑:张梦、姚霓
转载须知:如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱( [email protected] ), [email protected] �馈至联系邮箱。未经许可的转载以及改编者,将依法追究其法律责任。
责任编辑:陈近梅