浙大孔德兴:医学影像数据库,做持久且正确的事情
站在新的一年回望过去,不管是在基础设施、AI医疗场景成熟度、资本注入等环节,以医学影像AI产品为代表的医疗AI,终于迎来了一次集体绽放。
据雷锋网统计,前后已经有八款产品获批。事实上,医疗AI的商业化从来不是靠一己之力就能完成的任务:行业标准的形成、审批层面的规范、数据质量的提升、产业资源的整合,每一个环节都至关重要。
医疗AI发展的过程中,最重要的是做好顶层设计。
此前,中国医学影像AI产学研用创新联盟理事长、大会主席刘士远主任曾向《医健AI掘金志》表示,“现在行业缺少的就是标准,每个环节都是。虽然已经有企业拿到三类证,但是这仅仅是一个开端。进入临床以前,任何一个医疗产品都要有效果考核体系,要考核有效性、安全性、稳定性。”
作为医学影像人工智能建设的要素之一,我国数据库建设仍然缺乏。目前可公开的数据库不多,数据的标注标准也不统一。
而在2020年第二届医学影像AI大会上,医学图像数据库放射影像数据库建设项目正式启动,建成后也将成为国内首个医学影像的标准化数据库。
医疗AI,每一步都走在持久但正确的道路上。
今天介绍的文章主题正是围绕“医学影像数据库”,由浙江大学应用数学研究所的孔德兴教授在第二届医学影像AI大会上发表。
孔德兴教授是浙江大学特聘教授,博士生导师,应用数学研究所长,研究方向是医学图像处理与医学人工智能。发表了将近70篇SCI文章,拥有已授权发明专利7项。作为AI技术的前沿观察者与参与者,孔德兴教授在医疗数据库的建设方面具有许多独到的心得。
以下为孔德兴教授的演讲内容,雷锋网作了不改变原意的编辑:
孔德兴:非常高兴能在大会上介绍我们团队在数据库建设方面的一些工作和探索,今天主要汇报数据库的建设情况。
大数据是必须要做的,有以下三点:一是现在的发展阶段面临大数据的支持;二是国家的重大战略;三是大数据对科学研究也提出了一些挑战性的问题,在工业、农业、商业、国防等等有重大的价值。
当今时代是大数据的时代,在这里我用广义相对论表述一下对大数据的理解,有以下几点,
第一点:协变性,任何一个数据都是对客观对象的描述,如同用不同的坐标系描述物理规律,譬如CT和超声是对客观对象不同模态的描述与刻画。
第二点:从量变到质变过程中,人工智能学习或训练的数据样本量没有一个准确的数量,然而训练结果的准确率对临床诊断的精准性是重要的,这关系到医疗人工智能产品的准确率。
第三点:医学大数据有一个关联聚合性原理。简单来说,把每家医院不共享的数据整合应用,就会产生汇聚数据。各大医院汇聚的是不同分布式的中心数据,用一些分布式架构汇聚起来。通过技术手段可以破解数据库带来的挑战。每家数据都是描述医学规律的内部本质的规律,只是我们从不同的数据点反映侧重点不一样,汇聚起来产生一个整体的现象。
第四点:数据的重整化,我们可以复制、标注、加工利用数据,使其不停完善,量变产生质变,汇聚产生价值。数据是一种新型的资源,而处理数据的算法是一种资产,有了这些资源就有了算法。
好的数据是一种资源,是人工智能发展的基石,需要真实性、准确性、完整性、可溯性等等。随着研究和企业产业化的深入,当务之急是建立一些高质量高标准的数据库。从量变到质变,从临床医学模式到循证医学模式,从静态处理到动态处理,从单科影像到多模块交叉,建立好的人工智能算法。所有的一切都是建立在好的数据基础上。
从建立数据库时间关系,我简单按四点给大家分享一下,首先医学影像人工智能对数据的要求,建立数据库的规范,数据库标准的规范化,最后是建立数据库面临的问题。
首先,我们要提几个概念,第一个是数据治理,一个好的数据库离不开数据治理。总的来讲,数据治理是数据资产管理形成前的一个集成活动,包括建库的计划和监督执行的要求。
另外一点,数据治理有基本概念,是希望从零散的数据变成统一数据,从很少没有组织的流程到全方位的综合治理,从零散的变成一个有计划、有执行、有治理的活动。
数据治理有以下几个特征:第一,因为多模态多维度动态化的特点,数据采集难度大。第二,现阶段方法手段较少。第三,数据关联度高,关联性复杂。正如前面所说的,虽然超声CT模态和表面形态不一样,但是都是描述某一个人的肝癌信息。最后一点是,时间周期长。
我们希望,数据库能做到这三个层面,第一是目前阶段,数据库把数据归集起来变成一个有特殊结构的数据;第二是把数据库变成一个专家库,有数据入驻要求和标准,数据质控标准,治疗方法等;第三,希望数据库能做到动态,比如肝癌,医生通过随访肝癌高发原因,给政府提建议,共享疾病的现状,从现在的被动治疗到疾病预防,这是至关重要的。
所以,我们的数据库是有三个:传统数据库,专家数据库,然后到国家的数据库。
数据管理和数据治理有不同之处。
数据治理是很大的框架,而数据管理是数据治理的一部分,同时数据治理对数据管理有指导和评估的作用。
数据治理的体系是需要从全局范围描述大数据治理的主要内容,包括保障机制,核心领域,实施评估等等。数据治理不是一个虚的东西,是一个系统的选择,难度很大。
我希望从不同模态数据整理出不同医院的数据,抽象出一个数据治理指导性原则,现在这个目标对我们来说很有挑战性,我们在数据治理做了大量的调研工作,今年年底能出来一个框架,可以进行参考。
我们有一个数据的管理体系,管理体系的落实和指导有相对应的管理工作机制,还有一个支撑数据管理的系统。
数据治理是一个全生命周期的管理过程,首先有一个数据采集,形成原始数据库,数据归集成为数据集;再做数据预处理,清洗成基础的数据库;通过医学专家制定的标准指南来定义标注。
其中,我们对标注做了大量研究,发现各个研究机构包括不同的学会、不同的企业和医院标准不一样,同样的数据让不同的研究机构标注,结果都不相同。
我们一旦建成标准数据库,就进行数据算法的训练和调用。算法的测试可以在医院进行,这对于整个数据库的建设非常重要。因为医院数据的维度不同,包括来源地域不一样,方法不一样。
比如,用上海同济医院数据研发做出的人工智能产品,而没有其他医院的数据,这个产品可能只适合同济医院。经过药监局的批准也只能适用同济医院。
在数据质量管理体系中,对于数据的采集包括标注的房间光线都有要求。在这样的要求下,才能做到高质量的数据结果。
隐私安全是建立数据库的重中之重。国家卫健委启动国家数据库的建立,首要就是隐私保护,包括在伦理方面都有很大的要求。
医学影像人工智能发展对数据的要求,首先是符合建库要求,具有科学性、权威性、先进性,而且是动态的,能根据发展去更新数据,具体情况具体分析。
规范化构建数据库,目的是建立一个安全合规数据共享的数据库。其组织形式是需要专家队伍制定数据标准和质量评估标准,然后讨论实施。标准建立以后每一个环节都需要一个规范化的执行操作过程。我们建库的出发点是需求的驱动,以患者为中心建立一个长效全景的数据库。
国家卫生健康委牵头联合浙江求是数理医学研究院、清华大学长庚医院等单位正在建设超声、CT肺影像数据库以及肝脏临床数据库,以及糖网病眼底数据库和检测数据库。
浙江数理医学学会等机构也都在建立不同器官、不同模态的数据库。最重要的是需要建立统一的数据标准和规范。
数据库建立基本原则是临床和科研的需求,需要把临床、科研和企业产业化的标准统一起来,是在质量控制体系下高效成本低的建库标准。这是几个基本原则。
数据的标注也要规范化。标准和专家共识是至关重要的。我们要做一个标准流程让医生勾画,人工做的和智能做的在标准的软件中进行。
数据标注有以下难点:首先,专家共识很难达成一致。比如如何合理组织专家队伍,环境标准,使用工具的可信度,不同人有不同的理解。
到现在为止,我们面临的挑战很多。
第一,社会资源投入不够。建库是一个规范的事情,是一个长城工程,需要大量的社会投入,需要我们政府、企业和研究机构三方协同。
第二,数据库建设滞后。第三是数据类型比例不均,有的数据样本量少,还有的数据更新比较快。
面对挑战,我们希望加快建设,希望政府企业各方面一起投入,一起组建高质量的专家组进行数据标准的制定。我们需要卫健委统一国家数据资源,开放共享,不能让劳动白白付出。
这是一个国家工程,需要各个方面的投入,是一个功盖千秋的工程,需要大家关注的一件事情。
致谢:感谢国家卫生健康委能力建设和继续教育中心杨爱平主任、马兆毅主任以及国家药品监督管理局医疗器械技术审评中心人工智能医疗器械创新合作平台数据治理工作组专家们提出的宝贵意见;特别感谢徐磊博士、颜子夜博士以及甄浩博士提供的资料与宝贵建议。谢谢大家。 雷锋网 (公众号:雷锋网)
。