依图医疗CEO:解读首登Nature Medicine的中文NLP辅诊研究成果
雷锋网按: 以医学影像分析起家的依图医疗,其实也早已在医学NLP领域默默耕耘两年多。近日,其联合广妇儿研发的中文AI辅诊系统一炮打响。因相关论文是「全球首次」中文电子病历NLP技术刊发在顶级医学杂志上,该诊断系统备受业界关注。雷锋网 (公众号:雷锋网) 第一时间采访到依图医疗CEO倪浩,深挖系统背后的技术细节及依图医疗在NLP领域的布局与思考。
2月12日,国际知名医学科研期刊Nature Medicine(《自然医学》)在线刊登了一篇题为《使用人工智能评估和准确诊断儿科疾病》(Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence)的论文, 这是顶级医学杂志全球首次发表通过自然语言处理中文文本型电子病历进行临床诊断相关技术的论文。
论文阐述通过深度学习与知识图谱相结合,解构临床电子病历数据,形成一套智能病种库,并在其基础上构建辅助诊断模型的技术。 也就是说,有了这项技术,计算机能够「读懂」病历,并进行初步诊断。
其中,「智能病种库」是此次研究的核心成果,基于该病种库进行系统开发拥有很大的想象空间。除上述辅助诊断模型外,智能导诊、辅助问诊等系统也可基于该病种库搭建,能够有效缓解医疗资源不足、分配不均的问题,推动医疗供给侧改革进程。
据悉,此项技术及论文由广州市妇女儿童医疗中心(以下简称「广妇儿」)夏慧敏教授、加州大学圣地亚哥分校张康教授、广妇儿数据中心梁会营博士、医务部孙新主任以及儿内科门诊何丽雅主任团队与依图医疗、康睿智能科技等业内顶级研究团队及广东省再生医学重点实验室联合研发并撰写。
6000余个Schema,55种疾病
依图医疗CEO倪浩介绍,本次论文所述的是依图医疗在NLP领域两年积累的成果,期间依图医疗进行了大量的基础性研究,如知识图谱的构建、结构数据的清洗标注、标注体系的设计、算法的选择等。
整个系统的运作分为两部分。首先,基于医疗知识图谱,利用深度学习技术按照一定规则解构临床电子病历数据,将非结构化文本数据变为结构化数据,建成一套智能病种库。进而,基于这套智能病种库搭建各种诊断模型,本次发布的论文中,团队搭建了一套辅助诊断系统,系统通过读取病人病历向医生提供诊疗建议。
具体说来,在病种库构建阶段,团队先根据医学指南、专家共识库等现有材料构建医学知识图谱,并在该知识图谱的基础上,采用深度学习技术按照「标准解构Schema」解构训练所用的电子病历数据。这些Schema由依图医疗及广妇儿各位专家主任共同制定,用以描述某一病种的所有有意义的特征。
同一病种的不同维度(如诊断、家族史、主诉、实验室检查、影像学检查、超声检查等)被分别构建独立的Schema。依图医疗表示,已联合30余位高级儿科医师及10余位信息学研究人员构建了6000余个Schema,搭建起基础模型,并通过大量数据训练,形成前文所述的「智能病种库」。该病种库现已覆盖55种疾病,且在持续检验迭代中。
倪浩为整个过程进行了更加形象的解释。系统的目的是基于Schema从原始电子病历数据中提取信息点,并将其结构化、标准化,因此采用LSTM的注意力机制搭建模型,通过不断对文本进行「提问」抽取信息。例如在对文本「左肺上叶可见肿块」进行解构的过程中,系统通过不断的「提问」——「是不是左肺上叶?」「左肺上叶有没有肿块?」……抽取信息。实际上,提问的过程就是扫描文本的过程。
病种库构建好后,团队利用分层的逻辑回归的分类器建立诊断模型。倪浩介绍道,该模型与其他系统的不同之处在于其采用层次化结构进行判断。
第一级分类使用基于器官的方法,诊断首先被规范成广泛的器官系统(如呼吸系统、神经系统、消化系统等);第二层进一步细化,分成器官子系统和更具体的诊断组(如上呼吸道和下呼吸道);同时,采用病理生理学或病因学方法(如感染性、炎性、创伤性、肿瘤性等)将诊断分层决策树的设计调整至临床最适用的情景。
诊断模型的层次化结构
130万份训练所用病例,88.5%诊断准确率
此次模型的训练数据集中在儿科。倪浩表示,选择儿科切入是本着一个非常朴素的想法——解决儿科医生短缺的问题。另外,由于儿童没有准确表达病症的能力,因此被称为「哑科」,这为模型的设计带来了更大的挑战。倪浩认为,使用儿科数据训练的系统若想迁移到成人科室,技术相通,难度不大。
据广妇儿数据中心梁会营博士介绍,自2016年1月份到2017年6月份,团队共收集近60万名患者的130万份门诊记录电子病历,平均年龄2.5岁,其中40%是女孩,60%是男孩,涵盖包括消化科、呼吸科等在内的55种疾病,覆盖小儿常见病的80%以上,并且覆盖几种危急疾病,如脑膜炎等。
倪浩介绍道,130万份训练数据可以说是非常大的体量。对于一般在顶级杂志刊发的论文来说,上万份训练数据已经非常少见,大多是百级别、千级别的数据。倪浩表示,此次团队获得大量数据得益于广妇儿的数据化建设及门诊接待能力。
据雷锋网了解,广妇儿的门诊量在中国所有医院中可以排在前十名,仅2017年一年门诊量便达470万,且产生的数据集中在妇女儿童领域。此外,广妇儿的信息化建设能够追溯到2015年,已完成门诊病历的互联互通。
在模型验证阶段,团队随机抽取1.2万份电子病历,并选取20位医生,按年资高低分为五组进行人机对比。结果表明,模型准确率为0.885,高于两个初级医生组(分别为0.841和0.839),与第三组医生数据接近但没有赶超。
目前整个系统搭载在医院门诊系统中,医生输入病历后可以一键获得辅助诊断结果。系统自2018年5月上线至今,已累计服务33位医生,其中包括6位正高、13位副高,以及14位主治;系统累计访问量6.4万,其中仅2019年1月前20天便有3万次访问。梁会营计算,若月调用量达一万次,则相当于5位住院医师的门诊接待量。
向多模态的医疗数据处理迈进一步
倪浩谈到,NLP技术的加入将为医疗领域带来非常大的价值,因为医疗数据本身呈现多模态特征。当一位患者进入医院就诊,会产生影像检查数据、电子病历数据、化验结构化数据等,那么若人工智能要为未来医生提供全面的诊断辅助和治疗辅助,其对各种模态数据的理解能力都非常重要。
「这次实验最大的意义在哪里?本质上在于我们给出了一套适用于临床环境的利用原始电子病历进行辅助诊断的一整套理论体系和实践方法。」倪浩表示,「当然,这个方法不能说是完备的,但是目前世界上可见的理论体系中相对完整且被证明有效的。」
谈及未来,倪浩表示不急于计划广泛落地,希望借助广妇儿的场景提高系统性能,覆盖更多疾病。目前,广妇儿的互联网医院已经上线,支持在线导诊、挂号、机器人问诊等一整套线上医疗服务。在互联网医院项目上,依图医疗作为技术提供方也与广妇儿有着密切的合作,借助该项目,依图医疗的技术有了更大的施展空间及更加多元化的数据样本来源。
倪浩表示,未来该系统将有望与语音识别技术结合,医生询问及患者主诉的过程被实时转化为文字,对话结束后即刻生成电子病历,结合辅助诊断系统,医生可一键生成患者可能患有的疾病及下一步检查建议。更进一步地减少医生负担,提高诊疗效率。
。