广东省人民医院梁长虹:AI虽超越传统CAD,但医学的人文问题最难解决丨CCF-GAIR 2019
编者按:7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月14日,华南理工大学医学院副院长,广东省人民医院影像医学部主任兼放射科主任梁长虹发表了主题为《医学影像从CAD走向AI——做正确的事情》的演讲。
梁教授在演讲中表示,基于深度学习的算法给医疗行业的发展带来了很多好处。例如,检测算法将解决“大海捞针”的搜索问题,发现乳腺钙化和肺结节;配准和分割工具将减轻单调的测量和绘制肝转移瘤的时间进程;解剖测量应用程序将绘制器官体积的正常范围;而分类程序将有助于解决诊断难题。
因此,人工智能把放射科医生的认知领域提升到了一个更高的水平,让医生在与人工智能算法和患者合作解释图像时,发挥判断力、创造力和同理心。
如今的人工智能工具已经获得了监管部门的批准,这是基于它们在少数健康领域的表现。也许这些新的人工智能方法的增加精度将减少假阳性,有利于提高医师的效率。算法或模型的通用性使放射学的多样性实践仍然是一个悬而未决的问题。
借用一些时新的人工智能应用案例,梁主任也提出,距离人工智能真正替代医生的部分工作还有很长的距离。例如,数据的结构性、模型的可解释性等等就是很大的问题,这也是目前面临的挑战之一。
“做医疗是要有温度的,要有情感交流。这就涉及到人文,也涉及到医者和患者两个方面,也是AI最终要解决的,也可能是AI最难解决的。”
以下为梁长虹主任的现场演讲内容,雷锋网 (公众号:雷锋网) 作了不改变原意的编辑及整理:
梁长虹:首先要感谢雷锋网的邀请。我的题目是“医学影像从CAD走向AI——做正确的事”。
机器人会不会思考?如果看一本书《穿行者》,这个问题一百年前就有人说了,说这个话的人是拜伦的女儿纳夫莱斯。要问机器能不能思考,图灵奖获得者说,就像问潜水艇会不会游泳一样,所以就不要问同样的问题。
我是一个医生,很梦想人工智能帮到我们。上世纪90年代就有一篇文章支持人工智能辅助我们决策,这篇文章提出的时间是1994年,但是1994年并没有解决。
当然,今天科技的发展也有长足的进步。我们可以看到,机器学习解决了很多科学上的问题。我前段时间参加一个智能城市建设论坛,论坛讲到了无人驾驶。
我的梦想是无人驾驶明年可以实现,他们告诉我五到十五年之后可以实现,才可以在大街上跑。他说的对不对,我们不知道,但是人工智能在非医疗行业确实取得了非常多的成功,我们希望在医学上也可以取得成功。
2016年,我们在医学上做了很多事情,机器学习可以帮助放射科医生、病理学家做很多简单重复的事情。深度学习的大牛Hinton先生曾说,不要培养放射科医生了!
最近涌现出了很多新型的人工智能算法,促使人们反思过去的人工智能为什么未能实现其目标?如今有人工智能工具已经获得了监管部门的批准,这是基于它们在少数健康问题诊治方面的表现。
所以,我们看到这些算法还有很多问题悬而未决,在座各位可能比我更加清楚。是不是这么回事?这位Hinton又写了一篇文章,把自己否定了,说还是不能离开医生,需要与医师合作,作为工具帮助医生做事。
所以,实际上最重要的是我们要去参与人工智能的发展,要正确地理解它和研究它,而不要去阻止它。
大家可以看这幅图文,这是1865年英国的“红旗法案”。当年英国人不希望汽车替代马车,规定汽车在郊区跑时速不超过4英里,在市区跑时速不超过2英里。规定一个举红旗的人跑在前面,限制汽车的速度,最后使得英国的汽车行业现在比日本等要落后一些。
要将人工智能与我们放射科医生的工作相结合,首先我们要知道放射科医生的工作特性是什么。放射科医生是新技术的弄潮儿,放射科医生能够用最新的机器、最新的设备和最新的技术。
同时,放射科医生的工作还有一个长尾效应,大家不要期望AI能解决一切。我们至少掌握2万个术语、懂5600个病种,有的病例可能一年只见一个,也能用机器解决吗?这叫长尾效应。
还有一个特点是新技术,有了X光以后,我们又有了CT、再然后是磁共振。从原先的宏观视角到现在的微观视角。实际上,我们知道可以利用新技术做很多事情,甚至改变我们工作流程和状态。
放射科医生希望借助AI能够提供类似于飞机的自动驾驶。
例如,检测算法将解决“大海捞针”的搜索问题,发现乳腺钙化和肺结节;配准和分割工具将减轻单调的测量和绘制肝转移瘤的时间进程;解剖测量应用程序将绘制器官体积的正常范围;分类程序将有助于解决诊断难题。
因此,人工智能将把放射科医生的认知领域提升到最高水平,让他们在与人工智能算法和患者合作解释图像时,发挥判断力、创造力和同理心。
所以,我们也期望可以跟在座的各位做更多交流。要实现这些,有很漫长的道路要走。
人工智能与医学影像相关的问题,我们首先知道有CADx、CADe、CADq、CAST等方式,大家要注意,找病灶和诊断病灶是两回事。
人工智能在医学影像上跟人工智能在医学其他领域有类似的问题,包括隐私、透明性、取代、增强、解释等等方面。
深度学习是什么?对我来说就是“黑盒子”理论,这是我们很难大规模开展人工智能应用的一个“拦路虎”。在座的数学家、统计学家、计算机学家,能不能对每一层变量发生的变化给出预测?
还有一个是可解释性。放射科医生有责任了解他们使用的人工智能技术的回报和风险,提醒患者和利益攸关方注意风险,并监控人工智能产品以防止伤害。
这个背后是什么?是人文、伦理。伦理是医学上最为重要的。
举个例子,这个例子来自于几个杂志。2010年,有74%的女性乳腺检查采用了CAD,最后CAD给我们提供的是什么?是不是改变了我们?
杂志最后总结起来有五点:没有从中获益、降低准确性、增加随访率、增加活检率、增加了工作量。
因为标注有很多,这个医生要不断说这个是假阳性的,导致最后医生不想用这个软件了,这些需要注意。
走到今天,放射科医生为什么又有兴趣了?可能是深度学习和过去的CAD不同,走到今天,Deep Learning的算法改进和算力进步,解决了很多实际问题。
在传统CAD时代,计算机视觉甚至无法像一个蹒跚学步的孩子一样,完成微不足道的视觉任务,但现代人工智能正在成功地完成以前人类专家领域的任务。传统CAD产生的错误率大概是人产生错误率的5倍,现在的DeepLearning大概是人的0.5倍。
大家对这种进步也是可以感受到的。过去,开车进停车场总是要拿卡,现在车走到岗亭时,摄像头就可以认识我们的车牌。
深度学习的这种能力是非常强大的,因为深度学习系统通常能够在多个类似的任务上表现良好,并且可以用比传统的计算机辅助设计更少的精力对新任务进行微调。
所以,深度学习取得了前所未有的“成功”,但是这里要打引号,因为后面还会说不成功的地方。
这是印度的一个例子,利用平扫CT来发现异常,实现危险分层。针对颅内出血、骨折的征象来判断,这里ROC曲线,下面的面积大于0.85以上才有意义。
这是它的分析方式,他们发表了一篇大文章。通过这样一个分析之后得出几个结论:深度学习的算法对头颅进行分析,可以实现危险分层,判断脑袋里面有没有出血。因为,出血判断是根据CT值变化,不需要借助临床资料,单纯识别就可以了。颅骨骨折也是一样,通过图像分割后,判断它的密度变化,达到一定程度认为是出血;根据骨结构的连续性,知道有没有骨折。
如果是在肺里面进行分割,难度会骤然增加。我们经常开玩笑,肺里面看结节,可以有99种疾病可能,但常见的有肺癌、结核、肺炎等等,所以医生日常的诊断过程还是很痛苦的。
但是这篇文章也认为,AI还需要多中心的实验,看看能不能帮助医生,对患者疗效是不是有帮助。
我引用《Radiology》主编的一篇文章。文章的观点是,由放射科医生支持的诊断算法比决策系统拥有更低的风险。
在诊断环节,医生和工程师结合在一起,相对来说风险没有那么大。因为,放射科医生有几十年来之不易的经验,可以指导人工智能的设计、测试、验证、政策和监管。
所以,我们人工智能的公司一定要真诚地去跟医院合作,不要一味地讨我们的数据。
从之前谈到的1994年到二十多年后的2018年,同样的梦想又来了,这篇文章又讲了人工智能增加放射科医生的能力。这个梦想很类似,我做了一个简单的总结,我觉得这是非常有意思的。
在座各位都知道,图像的分割是非常难的,肺结节分割解决了没有?我认为还没有完全解决,如果结节跟血管或纵隔连在一起,你分割试一下。还有头部和肝里的病灶,对比度很差,分割难度加大。
当然,我们用人工智能的方法改善它。其实,有时候分割并不一定要求那么准确,就可以解决问题。也就是大家不用花大力气,就可以解决问题。
还有一个应用场景是生成放射科报告。大多数放射学报告需要放射科医生长时间的打字或语音识别输入。这些报告必须符合客观事实和语法上准确无误。
利用人工智能,如果我们可以实现报告的结构化,将有利于进行数据挖掘,以及在结构化报告基础上的语义错误检测。
语义分析跟语音识别是两码事,现在把我的湖南普通话翻译成文字,这叫语音识别,我说的话是什么意思是语义识别,这是两码事。
还有可以做一些数据挖掘,我们现在也在做数据挖掘,比如基于影像进行数据的分析,来看看它的诊疗决策价值。
影像组学,是一种新方法,2012年才出现的新概念,大家都会问,是否可行?我向大家汇报,完全可行。我们用结直肠癌患者资料作为研究对象,采用影像组学分析方法,仅用了526个病例就建立了结直肠癌淋巴结转移预测模型,能够成功预测淋巴结的转移。
我们的结果获得国际一流专家的认可,JCO杂志在4个月内就接受和5月2日在线发表。因此,我们采用影像基因组学实现早期诊断、精细分型和准确预后预测完全是可行的。
下面这一排图像,大家可以看到有圈的部分,这是内听道,里面有神经,类似于上面一排。技术人员扫描过程当中,没有办法达到一致,就可以利用AI的方法来实现,西门子、飞利浦、GE、联影、佳能等厂商都把技术纳入到设备里面,让我们获得标准化图像。
大家可以看到,这是骨龄判读。通常,医生需要拿着一本图谱书对照来判断骨龄。利用AI算法估测年龄误差2岁内,内分泌科医生可以接受这个结果,也就是具有临床应用价值。
另外,AI未来可以在影像介入来做一些相关事情。比如混合现实,指导我们和教学和模拟手术等。还包括智能导引、个性化3D打印支架或者导管。建立数据库模型支持粒子植入的内放射治疗。根据病灶实际情况,设计和引导放射性粒子放多少?如何放?此外,可以实现基于RECIST的智能评价系统等等。
这是我们自己做的一个小的研究,单发巨块型肝癌做了手术之后会复发。如果复发快,我们给予预防性治疗方案,延长病人的生存时间。如果复发几率低,我们可以进一步观察,减少患者的痛苦和节约卫生资源。
我们的研究结果表明,基于影像的模型,还有基于临床的病史和检验结果模型,还有这几个方面结合起来的模型,最后显示结合起来的融合模型特异性和敏感性都有提高。所以说,大家做病理的不能单靠病理,做影像的不能单靠影像,否则你就不能做出一个符合临床应用的AI工具帮助医生。
这是混合现实,我们医院也有团队基于CT影像做三维重建、VR和3D打印等等。还可以进行个性化的支架打印。这些都是非常有意思的。
当然,我们可以把人工智能应用到工作流程优化,比如流程管理、病变识别、建立临床路径、智能导航、康复支持等等。完全可以利用人工智能技术去实现其中一部分的功能。
像上图就是达芬奇机器人操作。我们知道达芬奇机器人来做手术,效果是不是一定很好,也需要观察。最近一篇文章讲到,达芬奇做手术的效果并不比人做手术的效果多,甚至有些场景下,效果不如医师手工手术。
我们可以利用一些传感器来帮助我们康复,这可能比医生根据现有的设备、自己的经验来进行康复好一些。这是基于一个传感器数据的分析建立模型来进行预测康复效果和指导康复。
现在可以基于CT、磁共振等影像信息进行疗效的评价和预测。也可以把病理,甚至基因信息结合起来,可能发挥更大效能。因此,刚才我跟姚建华博士讨论,我们也在探索“影像+病理”相结合的方式,当然我们现在做得比较粗浅。
谈完了上面的应用,其实我们发现人工智能的挑战也很多。
FDA批准的软件ContaCT,由Viz.AI提供。利用CT来判断脑血管梗塞,对CT图像进行AI处理,该算法将自动通知神经血管疾病治疗专家。Radiology主编对于这个软件系统给予了”强烈的”批评。为什么?
因为这个软件系统到目前为止公开的数据没有多少,唯一可用的结果来自美国心脏协会2018年国际卒中会议的海报。该系统训练和验证数据来自埃默里大学(Emory University)医生建立的ALADIN非公开数据集。
另外,提供了两个神经放射学家的名字,通过查FDA的文件,只找到一个人的背景,而且这个人还去了这家公司。另外一个还不知道在哪里。
最重要的是它的特异性只有52%,类似于甩硬币。提醒我们的AI公司,注意资料的完整性和可索源性。
人工智能医疗的发展上存在一个大问题,那就是数据的结构性差,这也是我们面临的挑战。
我们做医疗是要有温度的,就是情感交流。这就涉及到人文,也涉及到医者和患者两个方面,也是AI最终要解决的,也可能是AI最难解决的。
我今天给大家讲了基于深度学习的AI超越了传统的CAD。AI可以帮助我们进行精准的诊断,但是我们医疗数据具有复杂性,我们要敬畏生命不可重复,不能说AI可以解决一切问题。
医学伦理学的基础是“不伤害第一”。在医学领域开发和部署人工智能系统同样具有相同伦理义务:我们必须努力确定和减轻使用人工智能可能损害患者或卫生保健工作者的任何可能性。
有不对的地方请大家批评指正。谢谢大家。
提问:梁主任您好。您认为如果AI部分取代医疗工作和只是纯辅助性的医疗工作,你认为人文目的和商业目的两个平衡之间哪个更好一点?
梁长虹: 首先,AI在我这个专业的方向应该分两部分,一个是基于数据应用,一个是基于设备应用。
我说的人文是未来的事情。设备厂商完全可以,而且已经利用人工智能的技术帮助我们做很多事情,比如利用深度学习的方法改善图像的信噪比,减低辐射剂量提升图像质量,还可以进行标准的采集等等,这是基于设备的。这部分有很多场景是可以实现的,但是这些商业行为可能跟各位做数据分析是两码事。
第二,是基于数据应用。这个难度比基于设备应用难得多。一个是模型的共性和可泛化性。比如在中山大学用得很好,能不能放到省人民医院用得同样好?比如糖网,放在不同的医院是不是一样?换另外一家公司的照相机会不会还是一样?这些都是需要探索的。
。