怎样从脏乱差的医疗大数据中提取价值(一)
编辑导语:随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长。大数据时代,学会分析数据并且将其应用至工作中,不仅可以节省时间,提高效率,还能提取其中的价值,为医生和患者提供便利。
一、医疗大数据的背景
迫切的需求:
- 缺乏统一整体的顶层设计:以HIS为核心的堆叠式建设,医院整体信息化的扩展性较差,很难适应后续的信息化发展;
- 临床应用深度不够:实现医院以临床为中心、为患者提供优良的医疗服务,实现全面准确的临床医疗信息源,提高医疗质量和服务水平;
- 缺乏运营精细化的支撑:没有形成资源的集中统一管理,未建立医院人财物的一体化管理;
- 缺乏全院的数据整合、数据利用率较低:数据的利用率较低,没有对临床和管理起到支撑;
- 信息系统间交互耦合度过高:基于HIS系统的一体化设计,耦合度较高;数据集中存储,带来系统升级和数据安全等问题;
- 数据标准规范性问题:缺乏全院的数据标准规范,系统间数据共享率低。
二、医疗大数据的来源
1. 病人就医过程中产生的数据
从挂号开始便将个人姓名、年龄、住址、电话等信息输入系统;面诊过程中病患的身体状况、医疗影像等信息也会被录入系统;看病结束以后,费用信息、报销信息、医保使用情况等信息被添加到医院的系统里面。
这就是医疗大数据最基础、最庞大的原始数据资源。
2. 临床医疗研究和实验室数据
临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150 MB的数据,一个标准的病理图则接近5 GB。
如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。
3. 制药企业和生命科学
药物研发所产生的数据是相当密集的,对于中小型的企业也在百亿字节(TB)以上的。
在生命科学领域,随着计算能力和基因测序能力逐步增加,美国哈佛医学院个人基因组项目负责人詹森·鲍比就认为,到2015年,将会有5000万人拥有个人基因图谱,而一个基因组序列文件大小约为750MB。
4. 智能穿戴设备带来的健康管理
随着移动设备和移动互联网的飞速发展,便携式的可穿戴医疗设备正在普及,个体健康信息都将可以直接连入互联网,由此将实现对个人健康数据随时随地的采集,而带来的数据信息量将更是不可估量的。
三、医疗大数据的价值
1. 服务居民
居民健康指导服务系统,提供精准医疗、个性化健康保健指导,使居民能在医院、社区及线上的服务保持连续性。妙健康提供了专业的医生团队,能够在线帮助用户解决各种病症,进行健康指导。
居民也可以在其掌上药房购买日常所需药品,方便快捷。
2. 服务医生
临床决策支持,如用药分析、药品不良反应、疾病并发症、治疗效果相关性分析、抗生素应用分析;或是制定个性化治疗方案。通过妙健康在线医生,医生可以在线进行相关的医疗指导,做出医疗诊断,还能够有效减少门诊量。
3. 服务科研
包括疾病诊断与预测、提高临床试验设计的统计工具和算法、临床实验数据的分析与处理等方面,如针对重大疾病识别疾病易感基因、极端表现人群、建立个人健康医疗档案等。
个人健康医疗档案的建立,能够让个人医疗信息共享,让医生能直接快捷地了解患者既往病史,避免了重复问诊的现象,使患者能够及时有效地接受治疗。
4. 服务管理机构
规范性用药评价;流行病、急病等预防干预及措施评价;公众健康监测,临床路径的优化等。
5. 公众健康服务
包括危及健康因素的监控与预警、网络平台、社区服务等方面。通过数据采集、风险评估、健康干预等方式来为客户提供健康管理等一系列服务服务。
四、医疗大数据的现状
1. 数据异构
多平台,多种接口,数据类型没有一个标准,只能是点对点的对接大量数据,内容冗杂、过程繁复、速度缓慢。
2. 主题分散性
就诊信息分布在不同的平台上,不能够形成以患者为中心的所有电子化就诊信息集成,不能提供完整、全面、准确、及时的患者临床信息。
3. 数据量大
在大数据背景下,行业应用的数据量通常都以亿级别计算,存储通常在TB/PB级别甚至更多。
4. 数据多态
数据模型在数据出现之后才能确定,数据模型随着数据量增长不断演变。
五、建立医疗大数据资产目录
依据卫生部信息化工作领导小组办公室卫生部统计信息中心2011年3月发布的《基于电子病历的医院信息平台建设技术解决方案——业务部分》所示:
1. 临床服务域
包含12个二级类目:患者标识、患者服务、入出转、医嘱、病历文书、护理文书、检验、检查、手术麻醉、治疗、输血、健康体检,业务子域共计26个。
2. 医院管理域
包含4个二级类目:医疗管理、人力资源管理、财务管理、物资及后勤服务管理。共有业务子域共26个。
3. 平台应用域
包含5个二级类目:区域医疗协同、管理决策、临床决策、公共卫生信息上报、患者公众服务。共有业务子域20个。
根据临床服务、医院管理、平台应用三域,梳理建设以业务活动为核心的数据资产目录,根据业务活动主题梳理数据元标识符,保证每一个数据元的标识符具有唯一性(基本数据集:城乡居民健康档案、疾病管理、医疗服务、电子病历等)。
1)数据元标识符“DE08.10.052.00”来源依据《TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方》
2)数据允许值“WS218–2002”来源依据《WS 218-2002 卫生机构(组织)分类与代码》
六、从业务系统中抽取数据
关联映射业务系统表字段,并创建调度任务,如图五:
映射多表情况下,需要选择关联表主外键字段,如图六:
调度任务可支持针对单表、全表,历史数据抽取,实时数据监听抽取俩种模式,如果图七:
七、数据质量质控
具有对数据质量进行评估的完整的指标体系,至少应该有完整性(事件、表单、记录、表项)、一致性(主数据一致性、逻辑一致性)、唯一性(无二义冗余、指标及计算口径)、及时性、原始性、可溯源性及可测量性。
八、数据中台建设
根据数据资产目录快速定位业务主题,如图八:
根据不同业务场景,自定义勾选数据元名称,自动生成API或新的主题库(数据集市)。
本文由 @CTO老王 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Pexels,基于 CC0 协议