癌症重在预防！用深度学习技术来预测肺癌

IT思维 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

公众号/AI前线

策划 | 刘燕

作者 | Jerry Wei

译者 | Sambodhi

编辑 | Linda

AI 前线导读：对病理学家来说，最困难的工作非判断患者是否罹患癌症莫属，诊断结果至关重要。然而病理切片的检查又极其复杂，病理学家需要经过多年的训练，再加上丰富的专业知识和经验才能胜任。尽管如此，人类病理学家也会出现误诊和漏诊。如果癌症能尽早发现并及时治疗，死亡率就可以降低。

于是，人们就研究如何通过深度学习算法，训练机器学习切片检查来发现并预测癌症，从而提高诊断的效率，对病理学家和患者来说都是很大的帮助。今天，AI 前线得到原作者 Jerry Wei 授权，翻译并分享他的文章 Predicting Lung Cancer Mutations with Machine Learning（《用深度学习预测肺癌突变》），希望有所启迪。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

癌症重在预防！用深度学习技术来预测肺癌

本文最初发布于 Medium 博客，经原作者 Jerry Wei 授权由 InfoQ 中文翻译并分享。

我读了 Nature Medicine （《自然医学》）杂志上的最近一篇文章，文章作者提出了利用机器学习技术，通过深度学习预测肺癌基因突变。他们是如何做到的呢？

AI 前线注：这篇文章题目为 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning（《利用深度学习对非小细胞肺癌组织病理学图像进行分类和突变预测》），网址为：https://www.nature.com/articles/s41591-018-0177-5

肺癌。肺癌有两种主要亚型：腺癌和鳞状细胞癌。能否对这些亚型进行区分极其重要，因为每个亚型都有自己的治疗方案，针对腺癌和鳞状细胞癌的靶向治疗各不相同。尤其是腺癌需要进行基因突变分析；靶向的原发性突变包括表皮生长因子受体（epidermal growth factor receptor，EGFR）、间变性淋巴瘤受体酪氨酸激酶（anapestic lymphoma receptor tyrosine kinase，ALK）、肿瘤蛋白 53（tumor protein 53，TP53）和 KRAS 突变。

识别这些突变至关重要，因为每种突变都有专门的治疗方法。例如，EGFR 和 ALK 突变已经有了美国食品药品监督管理局（Food and Drug Administration，FDA）批准的靶向治疗。目前分析肺癌组织样本的方法（组织样本的人工目视检查）既详尽，又有时不准确。此外，这种方法也很难区分腺癌和鳞状细胞癌。因此，能够准确分析肺癌组织的自动化机器学习模型将是非常有益的。

癌症重在预防！用深度学习技术来预测肺癌

每一类的全切片图像（whole-slide images，WSI）数量，其中 LUSC 代表鳞状细胞癌，LUAD 代表腺癌。图片来源：Coudray 等人，论文的原作者。

肺癌影像数据集
作者使用了来自 NCI 基因组数据共享平台（Genomic Data Commons，GDC）的数据；他们检索了大约 1700 张全切片图像，其中 609 例为鳞状细胞癌阳性，567 张为腺癌阳性，459 张为正常。他们使用滑窗（sliding-window）算法从这些全切片图像生成了大约 100 万个 512×512 像素的窗口。基本上，他们在整个组织样本上滑动一个假象的“窗口”（可以高达 100000×100000 像素），并将每个窗口用做单独的样本。然后，他们将得到的 100 万个窗口进行分割，其中 70% 用作训练集，15% 用作验证，15% 用作测试集。

AI 前线注：GDC（Genomic Data Commons）是美国国家癌症研究所（National Cancer Institute，NCI）的研究计划，使命是为癌症研究界提供统一的数据存储库，以便在癌症基因组研究中共享数据，支持精准医学。它包含几个大规模的癌症基因组研究计划的数据，包括 TCGA、OCG。而 OCG 包括两项支持癌症分子鉴定的计划，TARGET 和 CGCI。

癌症重在预防！用深度学习技术来预测肺癌

本文采用的数据处理策略。图片来源：Coudray 等人，论文的原作者。

使用 Inception v3 进行机器学习

作者的模型基于 Inception V3 架构，它使用不同内核大小的卷积和最大池化层组成的 Inception 模块。* 你说的这个卷积是什么？我主要讲的是卷积神经网络（convolutional neural networks，CNN）；这些神经网络特别擅长图像处理，而这恰好是本文试图要做的事情。

AI 前线注：Inception V3 是深度神经网络的架构之一，最早由 Google 于 2014 年发布 Inception V1，2015 年发布 Inception V2。Inception V3 在 Inception V2 的基础上用 RMSProp 代替 SGD，替换了一个 7×7 的卷积层为 3×3 的卷积层。具体详情可参阅 What is the difference between Inception V2 and Inception V3? （《Inception V2 与 Inception V3 的区别》：https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

迁移学习

癌症重在预防！用深度学习技术来预测肺癌

本文还将迁移学习应用于腺癌和鳞状细胞癌的分类。但什么是迁移学习？迁移学习基本上是一种使用他人模型的方法。神经网络具有层间权重，这些权重有利于模型的实际运行。因此，如果你能得到这些精确的权重，那么你本质上就是复制粘贴模型。这就是所谓的迁移学习——使用他人训练的权重，然后根据你自己的目的对其进行微调。在本例中，作者使用了在 ImageNet 竞赛中表现最佳的权重，并对肺癌数据进行了微调。当然，还有一些其他超参数用于模型，损失函数（交叉熵）、学习率 (0.1)、权重衰减 (0.9)、动量 (0.9) 和优化器（RMSProp）。

热图显示了模型所观察的内容。图片来源：Coudray 等人，论文的原作者。

训练

因为他们有两个不同的任务（预测腺癌和鳞状细胞癌以及预测腺癌切片的基因突变），他们训练了模型的多种变体，在第一项任务中，他们训练模型来预测正常组织与腺癌、鳞状细胞癌。对于第二项任务，他们训练模型来预测每个二元基因突变，而不是作为多类分类器。这意味着它们的实现允许肺癌组织中的每个 512×512 切片对不止一个基因图片呈阳性。对于这两项任务，他们对模型进行了 500000 次迭代的训练。

结果

他们通过几种方法验证了模型的有效性。首先他们将模型与病理学家进行了比较。在独立的测试集上，被模型错误分类的切片中，有 50% 也被病理学家错误分类；而被病理学家错误分类的切片中，有 83% 被模型正确分类。这被视为模型表现与病理学家不相上下的证据。作者还计算了模型对每个基因突变的正确率，发现该模型比彩塑所有的突变要好得多。

癌症重在预防！用深度学习技术来预测肺癌

该模型实现的每个突变在 ROC 曲线（Receiver Operating Characteristic，受试者工作特征曲线）面积得分。图片来源：Coudray 等人，论文的原作者。

这意味着什么？

作者创建了一种学习模型，能够以合理的正确度对肺癌基因突变进行分类，并能够识别两种肺癌亚型之间的差异。这显示了机器学习的强大功能，它的应用是如何的广泛。该模型主要用于协助病理学家进行诊断，使诊断过程仍然保持半手工的状态。那么，这个模型还能做什么呢？在未来，作者将应用该模型尝试对较不常见的肺癌进行分类，包括大细胞癌和小细胞癌。引入他们的模型也有可能带来高精度的肺癌组织的全自动分析，这既减少了分析时间，又减少了潜在的人为错误。

也许在未来，我们能够通过机器学习，让计算机为人类诊断疾病。

下面列出我认为人们可能感兴趣的一些其他资源：

原始论文：https://www.nature.com/articles/s41591-018-0177-5.pdf

该论文的 GitHub 仓库：https://github.com/ncoudray/DeepPATH

关于肺癌的更多信息：https://www.cdc.gov/cancer/lung/basic_info/what-is-lung-cancer.htm

原文链接：Predicting Lung Cancer Mutations with Machine Learning

https://towardsdatascience.com/predicting-lung-cancer-mutations-with-machine-learning-fe2e348eaadb