浙大孔德兴：医学影像数据库，做持久且正确的事情

雷锋网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

站在新的一年回望过去，不管是在基础设施、AI医疗场景成熟度、资本注入等环节，以医学影像AI产品为代表的医疗AI，终于迎来了一次集体绽放。

据雷锋网统计，前后已经有八款产品获批。事实上，医疗AI的商业化从来不是靠一己之力就能完成的任务：行业标准的形成、审批层面的规范、数据质量的提升、产业资源的整合，每一个环节都至关重要。

医疗AI发展的过程中，最重要的是做好顶层设计。

此前，中国医学影像AI产学研用创新联盟理事长、大会主席刘士远主任曾向《医健AI掘金志》表示，“现在行业缺少的就是标准，每个环节都是。虽然已经有企业拿到三类证，但是这仅仅是一个开端。进入临床以前，任何一个医疗产品都要有效果考核体系，要考核有效性、安全性、稳定性。”

作为医学影像人工智能建设的要素之一，我国数据库建设仍然缺乏。目前可公开的数据库不多，数据的标注标准也不统一。

而在2020年第二届医学影像AI大会上，医学图像数据库放射影像数据库建设项目正式启动，建成后也将成为国内首个医学影像的标准化数据库。

医疗AI，每一步都走在持久但正确的道路上。

今天介绍的文章主题正是围绕“医学影像数据库”，由浙江大学应用数学研究所的孔德兴教授在第二届医学影像AI大会上发表。

孔德兴教授是浙江大学特聘教授，博士生导师，应用数学研究所长，研究方向是医学图像处理与医学人工智能。发表了将近70篇SCI文章，拥有已授权发明专利7项。作为AI技术的前沿观察者与参与者，孔德兴教授在医疗数据库的建设方面具有许多独到的心得。

以下为孔德兴教授的演讲内容，雷锋网作了不改变原意的编辑：

孔德兴：非常高兴能在大会上介绍我们团队在数据库建设方面的一些工作和探索，今天主要汇报数据库的建设情况。

浙大孔德兴：医学影像数据库，做持久且正确的事情

大数据是必须要做的，有以下三点：一是现在的发展阶段面临大数据的支持；二是国家的重大战略；三是大数据对科学研究也提出了一些挑战性的问题，在工业、农业、商业、国防等等有重大的价值。

浙大孔德兴：医学影像数据库，做持久且正确的事情

当今时代是大数据的时代，在这里我用广义相对论表述一下对大数据的理解，有以下几点，

第一点：协变性，任何一个数据都是对客观对象的描述，如同用不同的坐标系描述物理规律，譬如CT和超声是对客观对象不同模态的描述与刻画。

第二点：从量变到质变过程中，人工智能学习或训练的数据样本量没有一个准确的数量，然而训练结果的准确率对临床诊断的精准性是重要的，这关系到医疗人工智能产品的准确率。

第三点：医学大数据有一个关联聚合性原理。简单来说，把每家医院不共享的数据整合应用，就会产生汇聚数据。各大医院汇聚的是不同分布式的中心数据，用一些分布式架构汇聚起来。通过技术手段可以破解数据库带来的挑战。每家数据都是描述医学规律的内部本质的规律，只是我们从不同的数据点反映侧重点不一样，汇聚起来产生一个整体的现象。

第四点：数据的重整化，我们可以复制、标注、加工利用数据，使其不停完善，量变产生质变，汇聚产生价值。数据是一种新型的资源，而处理数据的算法是一种资产，有了这些资源就有了算法。

浙大孔德兴：医学影像数据库，做持久且正确的事情

好的数据是一种资源，是人工智能发展的基石，需要真实性、准确性、完整性、可溯性等等。随着研究和企业产业化的深入，当务之急是建立一些高质量高标准的数据库。从量变到质变，从临床医学模式到循证医学模式，从静态处理到动态处理，从单科影像到多模块交叉，建立好的人工智能算法。所有的一切都是建立在好的数据基础上。

从建立数据库时间关系，我简单按四点给大家分享一下，首先医学影像人工智能对数据的要求，建立数据库的规范，数据库标准的规范化，最后是建立数据库面临的问题。

浙大孔德兴：医学影像数据库，做持久且正确的事情 | 经典回顾

首先，我们要提几个概念，第一个是数据治理，一个好的数据库离不开数据治理。总的来讲，数据治理是数据资产管理形成前的一个集成活动，包括建库的计划和监督执行的要求。

另外一点，数据治理有基本概念，是希望从零散的数据变成统一数据，从很少没有组织的流程到全方位的综合治理，从零散的变成一个有计划、有执行、有治理的活动。

数据治理有以下几个特征：第一，因为多模态多维度动态化的特点，数据采集难度大。第二，现阶段方法手段较少。第三，数据关联度高，关联性复杂。正如前面所说的，虽然超声CT模态和表面形态不一样，但是都是描述某一个人的肝癌信息。最后一点是，时间周期长。

我们希望，数据库能做到这三个层面，第一是目前阶段，数据库把数据归集起来变成一个有特殊结构的数据；第二是把数据库变成一个专家库，有数据入驻要求和标准，数据质控标准，治疗方法等；第三，希望数据库能做到动态，比如肝癌，医生通过随访肝癌高发原因，给政府提建议，共享疾病的现状，从现在的被动治疗到疾病预防，这是至关重要的。

所以，我们的数据库是有三个：传统数据库，专家数据库，然后到国家的数据库。

浙大孔德兴：医学影像数据库，做持久且正确的事情 | 经典回顾