三院院士Demetri Terzopoulos:摆脱深度学习的单兵作战方式,“古今结合”将成未来方向丨CCF-GAIR 2019
编者按:7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月14日, 英国皇家科学院、加拿大科学院院士,计算机视觉领域的泰斗级人物Demetri Terzopoulos教授发表了主题为《The Application of AI to Medical Imaging and Healthcare》的演讲。
作为AI医疗专场的开场嘉宾,Demetri Terzopoulos教授系统地回顾了计算机视觉的历史:从最初模式识别的方法,到后来基于模型的方法,现在则是过渡到了深度学习阶段。
从1978年开始,Demetri Terzopoulos教授就尝试使用对医学图像进行分析。上世纪80年代开始,Demetri Terzopoulos开始了基于可形变模型的医学影像研究。
1987年,Demetri Terzopoulos与Kass等合作提出了著名的Snake模型,合作发表的论文也在IJCV 第一期Marr奖特刊中获奖,是计算机科学中被引用次数最多的论文之一。模型提出后,各种基于主动轮廓线的图像分割、理解和识别方法蓬勃发展。
在演讲中,教授列举了多个使用主动轮廓模型进行图像分割与重建的案例。
Demetri Terzopoulos教授认为,计算机科学、人工智能和信息技术有巨大的潜力,可以赋能医学事业,这对未来的创新是最大的源泉。但是,他也提醒,“我们有前沿的数据驱动的机器学习技术和强大的模型为基础的方法,但是不能盲目的认为,深度学习的单兵作战就可以解决所有问题。”
Demetri Terzopoulos教授提出的这一观点,也映照了近年来深度学习渐渐呈现出的一些弊端,例如“需要大量数据进行训练”、“可解释性差”等。
在接受雷锋网采访时,Demetri教授也坦言,深度学习已经有五六年的历史了,在很短的时间内影响了很多不同的领域。而现在深度学习面临诸多挑战,也是很正常的现象,任何技术的发展都不会直线上升的状态,总会遇到低潮。
“病灶分割就是一个非常困难的问题。标记昂贵一致性差的任务上,我们在深度网络上并没有获得非常出色的性能。另一个大问题是配准问题。你有多个数据集、多个图像模式,必须把它们配准在一起。例如,当你在做心脏分析的时候,追踪是很重要的,因为身体里的血管结构在泵血,就像人在运动一样。因此,图像的配准和分割等步骤一样,实现起来难度也很大。”
因此,他透露,自己最近的兴趣是把机器学习方法和此前基于模型的技术结合起来,这样做是为了产生更强大的医学图像分析算法。
“基于模型的方法能更好地解释分割过程中的情况。事实上,你可以和一个方法进行交互。基于模型的技术有很多优点,例如其中的一些并不需要大量的训练数据。所以把这两种技术结合起来,我认为是未来的发展方向。”
目前,Demetri Terzopoulos教授担任体素科技联合创始人兼首席科学家。
他表示,体素科技是一家非常年轻的公司,上海和洛杉矶是主要所在地。在洛杉矶设点的原因在于,公司离加州大学洛杉矶分校(UCLA)很近,因为UCLA有美国西部最好的两家医院之一(UCLA Medical Center)、医学院以及很多优质的医疗项目。
当然,在具体的病种种类上,体素科技以胸部CT、眼底彩照、冠脉CTA、皮肤四项全病种解决方案作为整体的发力方向。Demetri教授表示,“到目前为止,我们是发展全病种体系的系统技术,我觉得这是我们最大的成就之一。”
以下为Demetri Terzopoulo教授的现场演讲内容,雷锋网 (公众号:雷锋网) 作了不改变原意的编辑及整理:
Demetri Terzopoulos:大家好。谢谢主持人对我的介绍。我想感谢会议主办方和所有的工作人员组织这次活动。
今天想给大家讲一下人工智能在视觉计算和医学领域的应用。
大家知道,在医学影像这个领域有一些驱动力。首先是我们的图像识别发展的特别快,而且我们积累的医疗数据也非常多,我们积累了很多关于病人历史的病历数据,有了这样的数据和技术的支持,我们可以实现更多东西。
但是现在也有一些挑战,医学还欠缺一些技术。中国这样人口众多的国家,对医疗的需求量还是非常大的。这里有一些数据,每年都会有非常多的诊断量,其中多个诊断发生了错误,这在医疗上面是比较常见的。这些错误的诊断也许发生在早期,也有可能发生在后期治疗过程中。
如何应对这样一些挑战呢?我们希望能够用计算机的能力来赋能医疗。
在医学影像方面,我们需要解决哪些具体的问题呢?比如图像分割、配准、图像的重构、建模、运动模型分析以及计算机辅助诊断,以及治疗过程当中的跟踪,这些是我们将会遇到的问题。
可以看一下计算机技术在医学领域进化的历史。
最初我们使用模式识别的方法,后来过渡到基于模型的方法,现在更多是研究深度学习的一些方法。
第一阶段
在1970年代,我开始参与到研究中。在那个时候也有一些文章,像图片上这篇是关于模式识别的文章。这是我做的一项研究,那时候是一个有监督的学习模式,我们用到很多骨头的组织图片让计算机进行训练,希望它通过训练能够诊断出骨发育不良以及先天性骨骼缺陷的疾病。
第二阶段
到1980年代,我开始从事基于模型的医学影像研究,我们又把它叫做可形变的模型。从那时候开始就是一个新的研究方法了,我们当时用到的是计算机视觉和图像的分析。
当时这项研究是比较成功的,因为它使用由上至下以及由下至上两种方法的结合,同时对于我们在形态和运动方面原本的局限都有所突破,所以它是一个新的进展。在基于模型的医学影像当中,我们同时也用到了解剖学的一些知识。
大家可以看一下,这是非常著名的主动轮廓模型,简称Snakes。我和我的同事在1987年的时候就开始介绍这样的模型。这是用Snake模型做的互动实验,可以识别物体的边缘轮廓,并且用红色的线来标注出这个轮廓。
这是第二个小视频,可以把嘴唇的边缘勾勒出来。虽然嘴唇是运动的,但是依然可以追踪到,这也是属于计算机视觉的一个部分,现在也被广泛应用到医学中。
这是我亲自参与的一个图像分割的3D重建,这个图是神经元树突的组织,我们可以看到它的截面,它是大脑当中的一个组织。我们现在用Snake模型工具,同样用不同颜色的线把神经树突给勾勒出来,最终会生成一个三维的神经元树突的重建模型。这项工作非常有力地推进了我们在神经网络方面的研究。
这是另外一个使用主动轮廓模型做的实验,是一个视网膜造影的图像。
另外一个例子,我和在另外一个地方的同事共同做的一个项目。这是一个正在说话的一个人,在图片当中,我们用超声波来侦查舌头的运动情况,看说话的时候舌头怎么样运动,这个模型的鲁棒性非常强,可以去噪,生成的图片也是比较清晰的。
我们可以实现三维的图像,像后面这个图片是四维的,呈现的是我们的左心室,是左心室运动的追踪。
这个应用是关于腺体的图像分割,是比较典型的一个案例。
这是轮廓模型其中的一部分,首先是一个二维的图像,我们可以看到整个变化。在左边的简图当中,可以看到腺体的形状,我们把原来的曲线细分成为更多小的曲线,最终可以进行重构,帮助我们更加精准地定位它的轮廓。这就是主动轮廓模型的一些应用案例。
再来看另外一个可形变的模型,这个模型主要是运用可训练的数据来进行的。这里生成了一个算法模型,在这个图像当中每一个数据都有一个点,它是一个多维的端到端的模型。
如果我们有更多的数据可以用来训练的话,就会得到一个点云,每一个点都有具体的信息,每一个点都会有一个图像。通过降维的方法,我们能够更加清楚地去计算它的均值,然后对它进行数学的运算,这样就能够生成一些椭圆的线或者其他的数学模型,在这个Priors模型当中是非常重要的。在高维的点云模型当中有不同的方向和具体的信息。
这里有很多具体的应用。像这个是主动形状模型,简称ASM,是1992年Taylor提出的。这里我们进行了数据的标注。右边有一个动态的画面,这个模型会进行主动的拟合。我们从那么多图片当中获得了一些数据,通过训练就能够自动实现这样的拟合。
这是可形变模型最后一个案例,我们把它叫做可变的有机形态。像这个是大脑当中胼胝体的结构,它是掌管知识的结构,在大脑当中具有非常重要的作用。我们可以看到具体的胼胝体结构。它的周围有较软的纤维组织,跟我们的神经科学非常相关。通过研究它,我们可以找到大脑不稳定的一些原因。
用这个模型去定位胼胝体,可以把它的形状勾勒出来,这样就能够具体看它的结构特征是怎样的。我们可以看到,它的定位速度非常快,并且能够精准地进行图像分割,这是一个完全自动的图像分割过程。我们可以看一下慢放,它现在就在进行搜寻,不断调整它的位置,直到它能够得到一个非常精准的图像分割结果。
刚刚介绍了几种形态,它们都是属于可形变模型当中的,给大家展示了全自动的图像分割过程,具体的细节就不给大家放了,我想强调的这些过程是全自动的。
我们通过大脑和两个心室的组织,开始良好的定义心室在这边的位置。在这里做完以后,产生两个子体,有原子核的切割,向这个子体进行反应,然后进入到这样一个大脑的部位。这是一个器官的执行,是采取协作的方式来进行的,可以进行有效分割,是基于人工智能模型的技术来进行医学成像的分析。
讲一下我们最新的以数据驱动的机器学习对成像技术的贡献,也就是深层次的人工智能的算法在计算机视觉方面推动了革命性的进展。
在医学影像方面,机器学习也是很热的话题。这是最近的一篇论文,这个主题涌现出成千上万的文章。我们以肺癌为例,每年有超过1800万新增的肺癌病例,每年有1500万人死于肺癌。
我们在这里进行了深层次的卷积神经,用于肺结节探测。可以看到神经网络的结构分析是多层次的。像图片上这个是卷积神经,可以看到计算单元——神经元,低分辨率的聚集形成了子网络。对之前的特征网络进行分析,这就是深层次的卷积神经网络用于医学成像的分析。
这个分析重要的方面,肺结节的分割里面有各种不同的百分比,有的是恶性肿瘤的,有的没有恶性肿瘤,这样一种成像分析的分割很重要,我们用了深度学习的方式,展现出这样一个架构(见PPT)。
这里有一篇论文。为什么这个研究赢得了最佳论文?是因为,它是完全自动化的、立体的肺结节的分割,在这样一个图像上得到了很好的解读。
我相信这是一个大趋势,代表着未来,自动分割会有更多产出,使得医学成像的效率更高。我相信,深度学习和可变形模型的组合,将通过数据驱动来赋能医学影像分析。
在我们的实验室当中有DLAC的主动轮廓模型。我们可以看到卷积神经的架构,由于时间有限,无法详细来做一个解读,但是我们可以看到,它把深层次的神经网络和额外的层级在轮廓下部的层次进行了组合。作为一个融合的模型,作为主动轮廓模型,在当中可以进行活跃的训练,基本上是用深度学习的框架来进行训练的。
从这张图片可以看到端对端的经过训练的医学成像数据训练的结果,自动化的方式比人工的方式有更好的效果,进行这些分析和分割,在时间紧迫的情况下,机器自动的方式比人工更好,可以用于不同的医学成像分析,更好地提高病人的成活率。有的病灶的边界形状很难通过人工来进行预测,但是这个模型在这方面做得比人更好。
有了这样的特性,我们的人工智能深度学习在医学成像分析方面的作用提供了准确及时的反馈,可以提供重要的信息,帮助我们解读医学信息,让我们以更低的成本、更高的效率、更少的医疗误诊来提升患者的福音。
在未来,我们以人工智能赋能的医学系统通过大数据的输入,能够基于云来提高病理学和医学成像技术,人工智能引擎基于Web可以自动生成医疗报告,用自然语言这种被人理解的方式出报告,帮助医生更好的提升他们的工作效率和工作流程。
我的已毕业学生丁晓伟博士成立的公司VoxelCloud 体素科技2016年在上海启动了,主要做从专业成像设备到家用手机,系统有人工智能的算法、特别是深度学习的算法,可以更好地解读病患的医学影像。
我们世界级的研发团队在VoxelCloud体素科技这样一家初创公司持续努力,在真实的医学场景当中应用这些技术,与数百家医疗机构和医院进行合作,这对人工智能赋能的医学至关重要。我们近期会发表过往VoxelCloud AI在数万和数十万规模的人群上的真实世界结果,作为有力证据证明AI作为一种新兴的医疗资源,在国家医疗系统、单体医疗机构甚至家庭中发挥的重大作用。
图片上是我们现在的一些客户和研发合作伙伴。未来部署在大型体检机构里,我们的系统每天可以在3.5小时之内反馈数万份CT报告。
后面的图片中是我们眼科和皮肤全病种的合作伙伴,眼科包括洛杉矶郡公立医疗系统、Eyepacs、中国国家标准化代谢病管理中心MMC、协和医院、同仁医院、广东中山眼科中心等200余家中心、皮肤人工智能与中美知名机构比如哈佛医学院进行合作。
这里有红杉资本、腾讯等投资机构,我们截止2018年的融资额为8000万美元。
做一下总结,计算机科学、人工智能和信息技术有巨大的潜力,可以赋能医学事业,这对未来的创新是最大的源泉。我们有前沿的数据驱动的机器学习技术和强大的模型为基础的方法,包括前面提到的主动式的轮廓模型的结合,但是不能盲目的认为深度学习单兵作战就可以解决所有问题。
所以我们需要和其他技术结合起来,也就是和传统的医学界共同协作,才能充分用好我们的深度学习、人工智能,来促进医学事业的发展。需要做大量研究,才能更好地实现它的未来,解决医学事业实实在在的问题,并且为更多的病患造福。
再次感谢各位的耐心聆听。
。