人工智能在医疗领域的应用多是“加速型进化”
【编者按】近几年,纵观 人工智能 的大版图, 医疗 健康已经成长为最热门的领域之一,同时也有业内人士提到,AI+医疗会是人工智能落地的第一步。那么究竟人工智能究竟能够给医疗带来什么?给医生带来什么?
此文作者用诙谐的语音,充足的例证,深刻地讲述了人工智能在医疗领域商业化和工业化的应用,既有产业洞见,又包含了科研的思路,推荐给大家阅读。 为方便大家阅读,原文被分为三篇发布,此篇为第一篇,主要讲述了人工智能在医疗领域算法和技术的进展和突破。
本文发于“视觉求索”,作者周翔,清华双学士和经济学博士生,伊大香槟分校计算机视觉博士,现在西门子医疗负责计算机辅助检测和诊断。经亿欧编辑,供行业人士参考。
医生说:“我这个计算机说你的肺有问题,你知道它在说啥吗?”
病人说:“啊?我也不知道呀!嗯……我的智能手机应该会知道吧(?)。”
一、引言
去年(2016)画这个漫画之意,一方面想说医生可能会越来越依赖、甚至落后于人工智能(Artificial Intelligence or AI);另一方面,智能手机或者智能穿戴设备天天跟踪监测我们的身体状况,对我们的生活和健康的影响也应该会越来越大。
但是画中的医生或者病人都不是人工智能的“惊喜的快乐用户”:有些医生担心人工智能工作得太好了,会抢走自己的饭碗;如果工作得不好呢,又可能会象一个黑箱一样,给出一些莫名其妙的、不可理喻的建议,让人无所适从。从病人的角度来看, 大数据 、大信息已经要将我们淹没,而人工智能则像一个外星人一样,给人带来一种莫名的距离感甚至恐惧感。
那么,如果有一个横轴代表欣喜、纵轴代表担忧的“情绪空间”(mood map),你是在空间里哪一点上呢?作为一个业中人,我欣喜多于担忧;而投资界看上去比我还要乐观得多。
工业界的热情加上投资界的追捧对人工智能的发展确实有很大的推进作用。不少人认为我们已进入了一个人工智能和 深度学习 的“夏天”。可不是吗?就连谷歌的搜索引擎都会做“深度学习”的梦:当你在谷歌的搜索引擎里输入“Japanese cucumber farmer”(最后要输入一个空格),你会发现谷歌会自动填加“deep learning”!
这到底是怎么回事?!日本的菜农跟深度学习能沾上什么边?谷歌搜索是热昏了头吗?点进去一看,才发现还真有一个日本的菜农下载谷歌的tensor flow来对九种黄瓜进行基于视频的自动分类,以实现其家庭农场的自动化!
天啦!如果农民都能够玩转深度学习,那还要我们这群科学家干什么?!只好回家卖红薯去了。 Now,I am very worried!
二、算法和技术的进展和突破
让我们先把我们的(自私的)担忧暂时放在一边,一起来看看人工智能这几年的突破性进展吧!
如果说近年来大数据、 云计算 、计算硬件和物联网等等架起了许多的柴火堆,那么深度学习正像是一桶油,浇在了这些火堆上,让它们烧得更大、更猛、更热闹。
深度学习的算法已存在近二十年,但只是最近几年才开始被广泛采用。尤其在图像识别领域取得了突破性进展 。例如,谷歌相册在我的照片集中自动地找出了一百多种不同的事物,进行自动归类和标识。这种强大的模式识别能力确实是前所未有的。
1、人工智能正红火(AI is on fire)
在医疗领域,AI的火已经燃烧了有一些年头了。 深度学习使这个火焰达到前所未有的高度和规模。 或者,从另一个角度看,最近几年的激情和繁荣(exuberance)反映了对AI的期望的一个巨大的飞跃:现在许多人正在急切地等待AI来(至少部分地)替换医生——例如,诊断某些疾病;或做出人类本来就做不来的一些高智能或大计算的任务——例如,基于大数据来选择最佳治疗或预测结果。
换句话说,业界有两种对近期前景的预测或期望:一个观点是“加速型进化”(accelerate devolution),另一个观点是“破坏性革命”(disruptive revolution)。
“加速型进化”早已悄然启动,正在顺利前行。 仅在医学成像领域, 深度学习正在提升所有模式识别的能力 ,从解剖结构到疾病,以前所未有的速度提高工作流程和效率。
尽管AI已经给我们展示了精彩的表现和令人兴奋的成就,全面掌握了围棋和复杂的扑克游戏,医疗领域是否真的在面临着一个“破坏性的革命”的问题仍然让人有点琢磨不透,难以预测,叫人有点无所适从 。医生做的大多数工作是模糊的和不确定的,没有明确的规则,并缺乏可靠的训练数据。
但是,这些困难好像并没有让那些“革命派”们胆怯或者退缩,他们在多条战线上赞助或推进雄心勃勃的“登月计划”(“moonshot”),吸引着大量的来自小型创业公司和大型集团的热心人士,以及来自世界各地的大学、研究机构和政府。
以前在AI领域工作的人,例如计算机视觉、模式识别、或者医学图像处理之类的领域,似乎更多地倾向于“加速型进化”的观点和说法,而新来的人则更倾向于预测一个“破坏性革命”。每一边都有自己的偏见,目前好像都不能轻易地说服另一边。
2、反观历史
既然未来难以预测,我们就反观一下历史吧,看看在过去的十几二十年来AI在医疗领域都有哪些成就,特别是在医学成像领域的成就。
我喜欢把我们在过去15年里的工作戏称为“成像智能”(imaging intelligence),因为我们做了一对i(“eye”眼睛),把它们做到了医疗成像仪器上去,如CT和MRI,也放进了放射科和心脏科的后处理工作站上。在“成像智能”的两只眼睛中,一只专注于看疾病,这也就是传统的CAD(computer aided detection计算机辅助检测)领域;另一只眼睛将专注于看解剖结构,例如我们早在2006年做得产品ALPHA(automatic land marking and parsing of human anatomy)人体解剖学的自动标识和解析。
CAD这个领域在2005年到2015年之间经历了一些艰难的时期,皆因过度承诺overpromise最终导致负面新闻(说来话长,按下不表)。而ALPHA从一开始就走上了快速增长的道路。两者都随着今天的AI浪潮水涨船高,如果将两个合并,预计增长势头会更猛更快。
在过去十几年里, 基于机器学习的对人体解剖结构的自动检测在医学成像领域得到了广泛的应用 。CT和MRI机器能够从预扫图中自动找到各种解剖结构,然后非常精准的对目标结构(比如说大脑)进行成像,同时减少对相邻敏感器官(比如说眼角膜)的不必要的伤害(见下图a-e)。
我们最初以为检测解剖结构应该比检测疾病要容易得多,后来才发现并非如此。在医学成像领域里,Anomaly is the norm(非常乃正常),疾病(比如说肺部积水)经常影响解剖结构(比如说心脏,见下图)。而恰恰是在这些情况下,算法必须正常工作才能有足够的商业价值。
解剖结构检测的问题非常多样化,机器可以标识解剖结构,分割器官边界,跟踪器官运动,以及提供各类测量。一个突出的例子是对脊椎骨和肋骨的鲁棒检测,逐个标识和虚拟拉直(见下图)。
这一类的工具可以帮助技术员们大大提高成像的质量、速度、一致性(consistency)和重现性(reproducibility)。一致性(consistency)指的是不同的技术人员扫描同一病人出来的图像应该是一样的。重现性的一个例子是,比如说六个月以后所照的膝盖磁共振图片应该与六个月之前的图片正好切在同一个解剖平面上,这样才能看清楚六个月的治疗的真实效果,并帮助放射医生更快更好地处理分析图像和撰写报告。
解剖结构检测这个领域仍然是前途无量的。 人类光骨头就有206根(正常情况下),还有无数的血管、神经、淋巴以及非常复杂的器官和结构。如果再考虑到所有那些不同的成像模式——超声、X射线、CT、MRI、正电子发射断层扫描(PET)等等,组合起来的领域分支就更多了。
而深度学习则进一步拓展了我们的视野,并且大大提升了我们的期望值:以前难以想象的任务,例如,从大数据中同时学习多种解剖结构和多种疾病,现在是不是都可以轻松实现了呢?
当然,深度学习也被用于重写许多先前的用于罕见事件(rareevent)或上下文事件(contextualevent)的检测算法。但是,人们不应该简单地认为深度学习在所有情况下都会更好更强大;或者我们需要用深度学习去重新尝试一些已经解决得很好的问题。
我们在2000年初开发的用于检测和跟踪心脏运动并估计射血分数(Ejection Fraction)的算法,这些年以来在现实应用当中工作得很好;还有我们的肺结节检测算法也经受住了时间的考验:发表在2016年10月刊的Radiology杂志上的一篇独立研究[1]发现我们十年前的算法现在仍然是行业领先。
我们确实也试过用深度学习来解决这些经典的问题,但我们发现简单和直接的去用它好像通常不会产生神奇的结果,而是需要增加一些额外的语义建模层(semantic modeling layers)来提高精准度。我在下一章中会对这类问题进行更详细的论述。
注释:
[1]MingzhuLiang,etal.(2016,Oct)“Low-Dose CT Screening for Lung Cancer:Computer-aided Detection of Missed Lung Cancers”,Radiology,vol281,Issue1.