谈谈人工智能与数据治理:我们的系统为谁而建?(上)
【编者按】未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,从解决方案的角度分享 人工智能 在医疗行业的应用。
本文发于e医疗,作者:孙立峰;经亿欧大健康编辑,供行业人士参考。
工业技术是“老”IT(IndustrialTechnology),信息技术是“旧”IT,智能技术是“新”IT(IntelligentTechnology)。工业技术解决了人类发展资源不对称的问题,互联网信息技术很快会解决信息不对称的问题,智能技术将面临解决人类智力不对称问题的艰巨任务。
未来的IT,一定是“老、旧、新”三个IT的平行组合和使用。当然这一段不是我的总结,只是“拿来主义”。时光倒序,先从智能技术着手,从解决方案的角度分享人工智能在医疗行业的应用。
不说大数据的人工智能都是耍流氓
春秋战国,七雄争霸,那时候就出现了伟大的“ 数据治理 专家”秦始皇,将国家(“数据”)治理的三要素:组织架构、制度流程和技术支撑大集成,更将标准化发挥到极致。
这两年,医疗人工智能更是发展迅速,产业格局亦风起云涌。互联网医疗健康产业联盟发布的《医疗人工智能技术与应用白皮书(2018年)》对人工智能在医疗行业的宝贵价值、细分领域的应用、面临的问题与挑战进行了概括性的综述。
在中关村,程序猿们把人工智能叫“养狗”(阿尔法狗),“养狗”是要有“狗粮”的,没有“狗粮”吃的“阿尔法狗”肯定长不大;反之,没有消费者,“阿尔法狗”的“狗粮”也没有任何存在的意义。
这里的“狗粮”说的是经过数据治理过后的大数据,这样才可以把面粉加工(AI/DG)成面皮(数据开放平台),做成包子(专病研究)、馄饨(临床辅助决策)、饺子(真实世界研究)等。如图1所示:一望无际的麦田,好比临床医生(各自的一亩三分地)写的病历(种的麦子)各不相同(良莠不齐)。结构化电子病历系统的普及,对临床质控、临床科研发挥了巨大作用,而模板化的病历不仅限制了医生的思维,且归档后的病历千篇一律,生生把“大数据”变成了“数据大”。更为重要的是,很多医学信息因为电子病历模板没有预设“元素”而被隐藏掉了。
近些年,医院信息平台建设如火如荼,随着互联互通测评“政治任务”式的推广,平台建设达到高峰,标准规范得到越来越多的应用普及。但如弗吉尼亚·梅森医疗中心在精益变革中提出的:我们的系统为谁而建?
建成的数据中心依然有80%的是非结构化数据,此结构化非彼结构化、此标准非彼标准。医生种的麦子,收割后加工不成面粉,制作不出包子。
科研平台的变迁历程
1.信息平台下的科研应用
“集成平台”到“信息平台”叫法的改变,是信息化建设从“数据集成共享”到“标准规范建设”的转变。是从着力解决信息孤岛、烟囱林立,资源共建、数据共享、业务协作,到传统业务领域、重点信息工程、新兴技术领域标准体系的建设和应用的转变。
60项基础类信息标准(卫生信息数据元目录、卫生信息数据元值域代码、疾病分类与代码……)、88项医院信息化标准(电子病历基本数据集、电子病历共享文档规范、电子病历与医院信息平台标准符合性测试规范……)、76项区域卫生信息化标准(健康档案共享文档规范……)(数据来源:国家卫生健康委统计信息中心、中国卫生信息与健康医疗大数据学会卫生信息标委会),日趋完善的信息标准体系框架下,医院、区域建成了以患者为中心的病人主索引EMPI系统、临床数据中心CDR、运营数据中心ODR和科研数据中心RDR。
然而,海量的医疗数据却很少能转化成相应的科研成果。
医学信息分散且不完整,医学文本信息利用很难,基于关系型的数据仓库,病例筛选检索耗时之长,信息提取效率之低,数据统计挖掘之繁琐,是临床医生无法接受的。
走访一下医院,临床医生都在抱怨信息平台花了上千万,想要的数据却没有,做科研要检索的病例样本出不来。导致这种情况其实至少有两个重要的原因不能忽视:一是源数据非常差;二是那么多的标准规范,公司开发的产品遵循得太少。
信息平台说:这个锅,我不背。
2.大数据平台的科研应用探索
现如今,有些医院已经采用Hadoop集群计算框架,分布式存储、分布式运算,非关系型数据库NoSQL建设医疗大数据平台。
相对于信息平台,其海量数据处理能力让查找样本病例达到毫秒,多维度数据导出统计也是小菜一碟,只是这时候的“面粉”稍显粗糙。
数据结构化程度欠佳、准确匹配程度不够、科研数据不全——麦子通通结了穗,那穗在麦浪中随风波动,只是还不是那么饱满。
3.基于人工智能的科研应用
也许是之前的预算有限,或许之前的供应商服务虽好、技术却停滞不前,可能是顶层架构虽好、落地却有偏差,同一家医院换过几家公司的HIS、LIS或PACS系统的现象已经很普遍。而在建设信息平台、大数据平台的时候,之前的数据库、数据仓库还是孤立地躺在数据库服务器里,数据得不到全面整合。
从数据库、数据仓库,到数据湖、数据海,我们不讨论是应该建一个“大湖”,还是建不同的数据仓库。从临床科研的角度,我们需要对历史数据全集成、所有数据全覆盖,才能得到全面的病例样本;我们要将非结构化数据相对全结构化、全标准化映射,才能做到智能检索;我们要无边的麦田,绿油油、清爽爽,清风吹来,阵阵清香,精细的“面粉”方唾手可得。
随着《“健康中国2030”规划纲要》的发布和医改政策纵深发展,我国医疗服务行业也正迎来一个新的升级阶段,即是从“规模”向“价值”的变革。医疗产业与新技术逐渐融合,单纯“走量”的医疗项目不再是投资首选,大量“伪需求”将在消费者“用脚投票”下出局……如何能够转危为安,借力打力,最终在资本寒冬后的2019脱颖而出?
2019年7月25日-27日,亿欧大健康将主办 “GIIS 2019第四届中国大健康产业升级峰会” ,峰会以“雁栖健谈——从【规模】到【价值】的医疗变革”为主题,围绕医疗大数据、医药创新、非公医疗和科技医疗四大细分领域的市场环境、投资热点和产业变革等话题展开探讨。与此同时,亿欧大健康将会在3月-4月陆续举办: 医药创新产业沙龙(3月22日) 、 医疗大数据产业沙龙(3月29日) 、 非公医疗产业沙龙(4月26日) 、 科技医疗产业沙龙(4月19日) 。欢迎大家关注!
活动报名链接:
https://www.iyiou.com/post/ad/id/785
本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。