AI大战10位华西医院医生

虎嗅网 • 1年前扫码分享

AI询问比较全面，检查也做得比较全面，不太容易漏诊，但存在概念错误，比如AI医生在其中一个病例的问诊中说，“尿微量白蛋白在正常范围内，肾脏的过滤功能是正常的”，这句话就不准确。本文来自微信公众号：经济观察网（ID：eeojjgcw），作者：瞿依贤，头图来自：视觉中国

“您好，麻烦您告诉我您的年龄及性别，以及哪里不舒服？”当真人医生和AI医生以同样的问题开始问诊，最后的诊疗结果、治疗方案会一致吗？

6月30日，国内首次AI医生与真人医生一致性评测完成。这场PK发生在成都高新海尔森医院，AI医生为互联网医疗公司医联推出的MedGPT，真人医生是四川大学华西医院的10位医生，包括副主任医师和主治医师，涉及科室包括骨科、内分泌代谢科、心内科、肾内科、老年呼吸科、消化科和泌尿外科。参与这场义诊评测的患者共120多位。

问诊过程中，真人医生和AI医生都没有与患者直接接触，患者与医生助理接触，医生助理通过电脑输入文字分别与真人医生和AI医生联系，真人医生和AI医生的问题也经由医生助理传递给患者。

引导患者说出完整病情、收集足够多决策因子后，真人医生与AI医生为患者开具检查单或诊断，患者直接在成都高新海尔森医院完成检查；获得检查结果后，患者再复诊，并由AI医生及真人医生提供临床诊断及治疗方案。

从开始问诊到评审结果，整个过程在网上直播。

8个小时的问诊结束后，形成有效病例91份，由北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授进行审核。7位专家教授的专业与前述科室对应，评价维度包括7个——问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互。

最终，真人医生综合得分为7.5分，AI 医生综合得分为7.2分。 AI医生与真人医生在比分结果上的一致性为96%。5位专家给真人医生的打分都高于AI医生，只有2位专家给AI医生的打分高于真人医生，一位差1.6，一位差0.1。

在专家评审环节，北大人民医院肾内科主任医师蔡美顺表示，AI询问比较全面，检查也做得比较全面，不太容易漏诊，但存在概念错误，比如AI医生在其中一个病例的问诊中说，“尿微量白蛋白在正常范围内，肾脏的过滤功能是正常的”，这句话就不准确。

蔡美顺表示，这次一致性测评的样本量还不够丰富，总体来说，“人工智能对我们的工作有一些帮助”。

北大人民医院骨科主任医师薛峰对AI医生的评价是：总体不错，稍稍有些超出预期。MedGPT是一项非常有发展前景的技术，应该定位在常见病和基础病的诊断上。

薛峰以147号病例举例，这个病例的症状是膝盖痛，AI医生问诊非常详细， “MedGPT不嫌累，话多，问题也很多” ，会关注女性患者是否正在备孕、怀孕，而现实临床工作中，骨科医生较少会问这类问题，“有些细节问题漏掉之后很容易犯一些错误，一些症状漏掉之后也可能漏诊”。对膝盖痛这种常见疾病，很多时候医生需要做一些科普，告知患者生活中需要注意的事项，AI医生的详细表达也会给患者更多信息。

薛峰还发现了一个“惊喜”：MedGPT根据患者脚底板疼痛判断患者有可能出现神经压迫，真人医生却没有想到这一点。

对于AI医生的不足，薛峰认为，AI医生无法查体，但AI医生也没有关注查体结果，比如关节的活动度、有无压痛点等等。此外，对检查结果，AI医生只会读报告，报告怎么写的就会认为是什么样的，但专科医生要自己会看片子，“片子上的细微改变，报告有时候是体现不出来的”。

中日友好医院心内科主任医师任景怡举例，对早搏问题，AI医生还关注了中度贫血，这在临床上可能跟早搏密切相关，但 在实际工作中，专科医生比较聚焦自己的专业，可能会忽略相关症状。AI医生的知识储备比较全面。

多位专家认为， AI医生虽然问诊详细，但是针对性不够强，系统性和逻辑性也不够强，还有待训练。

本文来自微信公众号：经济观察网（ID：eeojjgcw），作者：瞿依贤