人工智能在医疗领域的商业化路障和挑战

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
人工智能在医疗领域的商业化路障和挑战

【编者按】近几年,纵观 人工智能 的大版图, 医疗 健康已经成长为最热门的领域之一,同时也有业内人士提到,AI+医疗会是人工智能落地的第一步。那么究竟人工智能究竟能够给医疗带来什么?给医生带来什么?

此文作者用诙谐的语音,充足的例证,深刻地讲述了人工智能在医疗领域商业化和工业化的应用,既有产业洞见,又包含了科研的思路,推荐给大家阅读。为方便大家阅读,原文被分为三篇发布,此篇为第二篇,主要讲述了人工 智能在医疗领域 商业化的路障和挑战。

本文发于“视觉求索”,作者周翔,清华双学士和经济学博士生,伊大香槟分校计算机视觉博士,现在西门子医疗负责计算机辅助检测和诊断。经亿欧编辑,供行业人士参考。


上篇地址: 人工智能在医疗领域的应用多是“加速型进化”

三、商业化的路障和挑战

李开复老师最近说:“如果在座有孩子想去读医学影像的识别,就是帮助你看片子的那些医生,千万不要,五年以后没有人会做这个行业了,全部被机器取代”。伊隆·马斯克(Elon Musk)做过一个大胆的预测,称全自动驾驶即将在几年内实现。正是这一类的宣言和信念在推动风险资本对AI领域的高度期望和投资,并已经达到了史无前例的程度。

因此,一个关键问题是:机器会很快(比如说,5年内)在一些关键任务上替代人类吗?比如全自主驾驶,或全面替换放射科医生?如果答案是否定的,或者时间框架是在十年或者二十年之外,而不是五年,那么许多风险投资人将会大大失望,有些甚至可能会马上撤资。

即使在这10-20年内,AI带来惊人的技术进步,帮助人类完成许多高难度的任务,并为投资者带来大量的利润,所有这些可能都不足以匹配当前投资界对AI的既高又广的期望。

那么,今天的主要障碍或挑战到底是什么,会阻止计算机算法在5年内实现全自动化驾驶和自动阅读所有CAT(计算轴向断层扫描)图像的宏伟梦想?

1、小猫(cat)还没搞定,就想挑战“大猫” (CAT:computed axial tomography计算轴向断层扫描)?

学会在照片中找到猫是深度学习的一个标志性的成功故事。该算法确实比人类快,但是它明显比人类好吗?这种算法是真的能够找到“所有的猫,而且只有猫”(“all the cats,nothing butthe cats”)吗?谷歌相册,通过深度学习,把我妻子的一张照片放到了“猫”的文件夹中(见下图)。所以,要么是我不小心娶了猫女,要么就是今天的深度学习算法仍然会犯愚蠢的错误。事实上类似的错误还很多,不管是找猫还是找其他的东西。

人工智能在医疗领域的商业化路障和挑战

如果小猫(cat)都还没有搞定,我们真的可以把所有的“大猫”(CAT?computed axial tomography计算机轴向断层扫描)图像都完全托付给AI吗? 再次强调一下,我们在此讨论的是“所有CAT图像”和“5年之内”。 我可以设想“小猫算法”在5年内会有大幅度的提高,达到接近完美的敏感性和特异性。我也可以设想,在5年内,会快速的出现一批医学图像分析的任务是由机器来完成,而且不需要放射科医生来监督。但是,绝对不会是所有的任务。

同时我也认为这只是一个“进化”而不是“革命”,因为多年来,计算机已经可以完全自动地阅读心电图,半自动地阅读宫颈刮片图,和独立承担许多实验诊断学的测试项目。

2、AI从第L2级到第L3级的飞跃尚未实现

虽然我们有雄心勃勃的愿景,还有商业界强力的推动,第L3级的自动驾驶今天还没有真正实现。第L3级的自动驾驶是允许司机不用再看着前方的道路的,可以写写电子邮件,读读书,或者甚至打个盹(你必须要考虑到很多人一读书就可能打瞌睡)。我觉得这很有可能在5年内实现,但是只会在一些特定的驾驶条件下才会工作,比如说高速公路,并且没有特别恶劣的天气。

不管怎么样,光保险公司就可能需要五年才能琢磨出来怎么样量化各种各样的风险: AI犯错的机会必须要足够小,以至于从汽车制造商或车主那里收集来的保险费可以足够弥补。

或者,也可以想象一些新的商业化方法,例如使用人来远程监视100辆汽车,万一某个打瞌睡的客户没有及时被AI的“请立即接管驾驶任务!(please take over now!)”的请求闹醒,监视中心的人可以随时远程接管驾驶任务,让汽车安全地脱离危险。这个商业模式有点像今天的一些家庭安全公司的做法,或者可以看成为一种“实时的道路救援服务”(real-time road side assistance service)。

Mobileye的Amnon Shashua博士预测第L3级自动驾驶的到来会在2018-2020年左右,而BMW则好像是把第L3级预计在2020年以后上市,第L4/L5级则被推到了2025年之后。 任何在工业界或金融领域工作的人都知道,长期预测通常带有很大的误差,且常常是偏于乐观的。

回到放射学领域,现有的CAD(计算机辅助检测)算法已经商业化很久了,但还停留在对应于自动驾驶的第L1/L2级上,只是担当“第二读者”(second reader): 医生需要对图像的采集和分析负全部的法律责任,算法仅仅是提供帮助/辅助。

第L3级的AI意味着算法需要开始负起责任来,成为“第一读者”(first reader),而且经常会是“唯一读者” 。再次强调前述观点:这算不上是一场“革命”,因为它在诸如心电图监测,宫颈涂片和一些病理图像自动分析的任务中已经被用了很长时间了。利用深度学习的力量,我可以想象在未来5年中会涌现出一大批新的“第一读者”产品。

肺结节或结肠息肉检测算法将首先全面地分析所有的图像,而放射科医生只需要审核一下那些算法找到的可疑的病变区域。计算机将分析所有的胸部X射线图像,并且直接向临床医生指出哪一些人可能有病变,而把那些看上去正常的健康的人直接送回家。

与第L3级的自动驾驶的情况类似, 商业化成功的关键在于对算法出错风险的量化和控制:每一个错过的结节或息肉的成本是多少?或者错误地把一个病人当做健康人送回了家的风险成本又是多少? 错误率不需要为零,但必须足够低——至少得低到保险单能够支付得起的地步。

或者,我们可以给那些由计算机送回家的“健康患者”们提供一个“专家确认”的服务: 如果他们真的想要更确定的话,他们可以付额外的费用请人类专家再看一遍。 但是这种额外收费的方法,尽管经济上是合理的,可能会面临“政治正确”的挑战:“你是说富人可以得到人类专家的悉心呵护,而穷人就可以死在机器人的冰凉冷酷的手里吗?!”如果所有图片都要人类专家过目一遍的话,那我们就又退回到第L2级去了。

多年来,我们一直在寻找计算机视觉和模式识别的“杀手级应用程序(Killer Application)”。 现在我们至少有两个:自动驾驶和放射学。这两个都是真正的“杀手(Killer)”级应用程序 :如果机器犯个严重的错误(例如,将白色卡车误认为白云,或将肺癌误认为是肝脏的一部分),它可能真的会“杀人”。

如果你经常开车的话,我建议你选一天,一路上不断地有意识地问自己:“这一段路能让AI开吗?”一天下来,你可能就会觉得AI五年之内不可能完全自己开车。同样的道理,如果你跟踪一个临床医生或者一个放射科医生一整天的话, 你同样可能意识到他们的很多任务都是不可能被AI在五年内代替的,二十年都不可能

一个非常有趣的民意调查显示, 人们往往相信其他人的工作可能会被AI替代,但不包括他们自己的工作! 这可以解释“每个工作都将被AI替代,每个工作都不会被AI替代”的“AI预测悖论”:你会听到许多预言家讲许多工作将被AI替代,所有这些预言的总和就是“所有工作都会被AI替代”;但是当你去逐一分析每个工作的时候——如果你可以相信那些做这个工作的、熟悉该工作的人——同样的预言家会告诉你这个工作将不会被AI替代,至少不会在5年之内,或者甚至不会在二十年之内。

无论事实如何,有一点是肯定的: 如果你不了解一个工作的细节,不要轻易预测“它将在5年内被AI取代”。

3、“只要有足够的数据,任何问题都会迎刃而解!”这是真的吗? “Give me data,I can do anything!”Really?

因为它强大的“端到端(end-to-end)”的学习功能,深度学习正带来一场革命。“只要收集到足够的数据,并告诉它你想要什么结果,深度学习都能学到”已成为很多人的期望。这个说法在很多情况下是成立的,但不是所有的情况——让人担忧的是有一些极其简单的问题都会难倒它。

下面这个例子就是这个情况:

这个例子我们稍微仔细看一下就会发现其中的逻辑其实很简单:第一类是“不同形状的组合”,而第二类是“单一形状的组合”。所以答案应该是“第一类”。

有意思的是,如果直接应用深层神经网络, 以端到端的方式来解决这个问题,不管你用多少训练数据都训练不出来 。那么人是怎么解决这个问题的呢?我们是先看到形状,识别了各个形状,然后再做逻辑推理。所以算法上只要加一两个简单的算法模块,首先做图像分割和形状识别,接下来这个问题就迎刃而解了。

人类一些疾病也有类似的复杂逻辑在里面:某些CT图像的一些形态(例如,肺中的“蜂窝”病灶)可能预示某一种疾病A(例如,UIP普通间质性肺炎),然而,另一些图像形态(例如GGO或磨玻璃样病灶)的共存可能排除疾病A,并大大提升另一疾病B的可能性(例如,NSIP或非特异性间质性肺炎)。

在我们最近的针对间质性肺病的CAD工作中,端到端训练完全不能解决问题 。而添加了一些分步逻辑模块之后,例如肺部分割和对局部疾灶模式的学习,我们开始找到解决问题的眉目了。我们做了一个算法的原型,可以达到一个刚入门的放射科医生的水平,并且可以帮助他们检测到更多的疾病病例。我预计,在5年内,这个算法应该能够达到或超过专家级的放射科医生的水平,并且许多类似的算法和工具也将陆续上市。

但是这种手工定制逻辑模块的做法,不容易实现有工业规模的快速成长(industrialized scale-up)。如果我们再考虑到人类疾病的总数是如此之大(约30000), 我们就会意识到“人工智能在五年内会全面替换放射科医生”的说法确实是太过于乐观了——我认为二十年都不太可能 。因为我们都知道啃不动的硬骨头都会留到最后,所以最后百分之五的工作往往会花掉我们百分之五十的总预算,甚至更多!

4、AI的软肋:威诺格拉德模式挑战 (Winograd Schema Challenge)

威诺格拉德教授(谷歌创始人拉里·佩奇的博导)早在七十年代就提出了一个挑战AI的简单方法,比图灵测试更加有效也更加难。一个经典的问题是这样的:

镇议员拒绝给示威者许可证,因为他们害怕(或倡导 暴力。谁害怕(或倡导)暴力? 答0:镇议员;答1:示威者。 正确的答案当然是0或1。也就是说镇议员害怕暴力,而示威者倡导暴力。

但这种类型的问题对计算机来说是非常难的。去年(2016年),最好的计算机程序只有58%的成功率。这是非常低的,简直令人沮丧,因为随便丢丢硬币就可以达到50%。这说明一个问题,就是计算机还不能很好的掌握人类的常识和进行基本的逻辑推理。

在放射科里的一个类似问题是患者的心脏有一个植入的二尖瓣阀,它有运动减退(hypokinetic)(或逆流)。什么有运动减退(或逆流),是心脏还是阀?

这个问题所有的放射科医生都知道答案。

放射科医生在看图像的时候通常都会把病人以前的历史报告拿来读一下作为比较。 如果连病史报告都看不懂,AI怎么代替医生呢?

让我们一起来关注一下下次的威诺格拉德模式挑战赛吧。看看AI能够达到什么样的水平,然后再讨论AI独立自主做疾病诊断(CAD-computer aided diagnosis)以及代替放射科大夫的事吧。

综上所述,我们可以对最开始提出来的几个问题有如下答案:

Q:搞机器学习的科学家是否应该担心她/他的工作(例如,因为开源)?

A: 不用担心!我们面临足够的问题和挑战,很多工作要做,不需要去卖红薯或黄瓜。

Q:医生或放射科医生是否应该因为AI而担心她/他的工作?

A:不用。至少20年内不用。

Q:患者是否应该担心医疗质量(由于AI可能犯错误)?

A:统计上讲:不用。(从长期看,AI统计上应该比人类更准确。

Q:具体情况?

A:建议多了解多问。(AI的错误会和人的错误不一样。)

随意打赏

人工智能在医疗领域人工智能的应用领域人工智能 金融领域人工智能领域的公司人工智能 医疗领域人工智能研究领域人类挑战人工智能中国人工智能领域人工智能领域公司人工智能应用领域
提交建议
微信扫一扫,分享给好友吧。