腾讯天衍实验室郑冶枫:AI抗疫的核心技术复盘丨公开课回顾
近期,雷锋网 (公众号:雷锋网) AI掘金志邀请腾讯天衍实验室主任郑冶枫,做客雷锋网公开课,以“腾讯抗疫故事”为题,对腾讯两个月相继做出的健康小程序、新冠肺炎CT辅助诊断、肺炎疫情趋势三个产品做出了技术分享。
后续将有更多课程上线,添加微信公众号 医健AI掘金志 报名听课,或收看本节课程视频回放
过去两个月,腾讯作为国内互联网行业第一梯队,在抗击疫情中付出了诸多努力,其中腾讯健康小程序提供实时疫情展示、线上问诊AI自查服务,累计有3亿用户使用。
郑冶枫表示,腾讯健康小程序抗疫专区上线的15个工具中,天衍实验室参与了5项,包括疫情知识问答、患者同小区、发热自查、发热门诊、口罩攻略。在疫情问答中,天衍实验室利用自研LTD-BERT模型识别用户意图,把推理速度提高了40倍,满足上线大流量需求,理解用户意图以后做问答匹配,精准地给用户提供疫情信息。
而在新冠肺炎CT辅助诊断产品的研发上,克服数据量不足、标注力量不够等问题,天衍实验室采用魔方自监督学习方式训练模型,在小数据集上进行微调,就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎做分类。
针对疫情的宏观防控,天衍实验室还利用深度学习对“传统传染病动力学模型”进行优化,为政府做了国内各省份和海外国家“肺炎趋势预测”。预测效果上,实际情况跟模型预测非常吻合,在3月3号发布的武汉预测模型中,后续实际证明误差小于千分之一。
以下为郑冶枫的演讲全文内容,雷锋网做了不改变原意的编辑。
天衍实验室是腾讯内部,专注于医疗AI的实验室, 覆盖医疗大数据、医疗自然语言理解、医疗影像等等。我们的使命是“全面支持公司医疗线的应用”。2019年我们实验室提交了将近100个专利,有6个顶会论文发表,参加多项竞赛,取得5项医疗AR竞赛的冠军。
过去两个月对全国人民来说都是不寻常的两个月。今天我跟大家分享我们的一些工作。
今天公开课,首先介绍天衍实验室,然后分享实施的三个项目:
1、腾讯健康小程序抗疫专区,这是to C的产品,依托于腾讯微信平台,目前是给大家做疫情知识科普,加强防疫意识;
2、新冠状肺炎CT辅助诊断,这是to B的项目,最终是部署到医院,目标是帮助影像科医生提高诊断准确率;
3、肺炎趋势预测,是政府部门合作项目,为下一步疫情防控提供参考,三个项目覆盖了to C、to B和to G。
腾讯健康小程序
新冠肺炎从2019年12月份爆发以来进展非常迅速,1月20号,钟南山院士宣布新冠病毒存在人传人,1月23号武汉开始封城,疫情在全国全面爆发。
中国花了一个多月时间,完全控制疫情的传播,当时觉得疫情就像当年SARS一样,过去了,病毒就完全消失了,后来发现情况比我们想象的要严重。
新冠肺炎已经在欧洲和美国已经全面爆发,最近几天确诊患者数量上涨非常快。有些专家预言病毒可能会跟流感病毒一样,每年冬季爆发,会跟人类长期生存。
腾讯作为中国头部互联网公司,过去两个月也积极投身国内抗疫工作。在3月18号,腾讯发布2019年财报和2019年第4个季度财报上,专门有章节介绍抗疫期间的工作,列下来大概有6点,其中两点是跟天衍实验室密切相关。比如,腾讯的15亿抗疫基金中,捐赠6台CT扫描仪搭载新冠CT影像诊断算法,部署到武汉抗疫前线;给钟南山院士团队捐赠3000万,用于新冠治疗方法研究,建立联合实验室,天衍实验室是腾讯内部专门负责对接的的技术团队。
另外相关的是腾讯健康。腾讯健康小程序提供实时疫情展示、线上问诊AI自查服务,累计有3亿用户使用。
腾讯健康抗疫专区
雷锋网在3月3号发表了“ 我们对「腾讯战疫」实情一无所知 ”,讲述了腾讯健康抗疫专区背后的故事,主要采访了产品,前台开发、小程序开发同事,里面的故事非常感人,有很多细节也是我们读了文章才知道,因为我们很多人是在家一直加班。
天衍实验室属于后台算法开发,更多是在幕后,用人工智能技术帮助抗疫专区项目推进,所以今天,我会从天衍实验室的角度阐述抗疫工具后面的黑科技。
大家读这份报告的时候可以看到,想法最初是来自1月20号钟南山院士宣布疫情全面爆发以后,我们医疗线同事就在想我们能做什么,当时就决定在腾讯健康上开辟抗疫专区,产品的同事花了一天多的时间加班加点,22号凌晨8:00上线了抗疫专区,开发出很多抗疫工具。
天衍实验室参与更多的是抗疫工具研发。微信同事也非常给力,在“我-支付-腾讯服务”的九宫格里给我们上线了医疗健康顶级入口,帮助工具做快速传播。总共15个工具中,天衍实验室参与了其中5项,包括疫情小助手、患者小区、发热自查、发热门诊、口罩攻略等。
智能知识问答
这个产品主要目的有两个,“抑制谣言传播”,“助力权威信息传播”,权威信息传播了,谣言自然就没有生存空间。
在疫情开始初期,大家都希望能得到权威解答,比如,怀疑自己是否得了新冠肺炎会问新冠肺炎症状等,但是网上的信息良莠不齐,甚至有些是故意编造的谣言。
我们希望通过一个工具,把权威信息集中起来,有效地给公众传播。虽然卫健委以及中国头部医疗机构会在官网上放出权威信息及问答,但这种官网信息最大的问题是流量小、文件篇幅长、难以检索。
通过不断积累,我们工具的数据来源包括卫健委在内23个权威网站,保证信息权威性,库里所有问答最后都是通过中华预防医学会专家校验,通过多轮迭代以后,我们的问答覆盖率已经达到超过97%。
这是我们产品的展示,进入这个界面可以看到先推荐几个最热点问题,假设用户感兴趣可以直接点击,如果不感兴趣,可以问全新的问题,比如新冠肺炎患者临床表现,程序会到数据库匹配,找到最相关答案展示,回答完这一轮问题以后,会预估用户可能还存在的问题,进行自推荐。
技术总体框架分4层: 数据层、技术层、功能层和应用层 。
数据层最重要是数据来源 ,依托互联网信息,用爬虫技术爬取,当然我们也有医疗知识库,对这些信息校对。第一个版本上线,我们覆盖率并不高,可能只覆盖到50%的问题,所以我们会每天分析日志数据,找到里面高频、没有很好回答的问题进行补充;
在技术层, 我们用爬虫技术、数据库技术、人工智能技术;在功能层;辅用我们以前做的工作,包括拼写纠错、意图识别等; 在应用层, 就是展现给用户能看到的体验,包括问答系统、个性化推荐系统等。
信息采集模块主要有两块,一是权威信息爬取,用自动爬虫工具去爬取数据来源,最终达到23个,每个数据来源的问答很大部分是重叠的,所以我们做了一些去重的工作,还有每个网站格式可能不太一样,我们需要做格式归一化,最后清洗完将问题入库。
第一个版本上线,很多热点问题没有覆盖到,后续设置了热点问题挖掘模块,发现新问题没有回答就用搜索引擎搜索,自动从网上找到答案,这些答案可能来源参差不齐,我们会做一个质量评估区分,是来源于权威网站还是来历不明网站,只采用权威网站信息,格式可能跟我们不太一样,需要做人工改写。所有改写完的问答,都会找中华预防医学会专家做人工校对,确保无误以后入库。
智能问答
首先对输入层做了很多工作,比如拼写纠错、因为输入可能是同音字会有拼写错误,还有标准化改写,因为新冠是新疾病,在统一名称之前,不同时期有不同叫法。
我们还做了意图识别,建立三级意图体系,第一级意图有九个,包含口罩、新冠知识、发热门诊之类等,接着不断细分。到第三级有329个意图,比如,口罩细分层就有购买渠道、价格、口罩配套、口罩是否可以重复使用等。
我们是采用最新BERT模型做意图识别,把输入的用户意图分类到意图体系里,但是BERT模型速度比较慢,我们进行了模型压缩,最终用自研LTD-BERT模型把推理速度提高了40倍,满足上线大流量需求,我们理解用户意图以后,会做问答匹配,精准给用户提供答案。
还有个性化问题推荐功能,根据用户输入,可以做一些推荐,比如,根据用户过往问题做相关后续追问,或者推荐一些热点。
用户甚至可以制定意图,比如他想知道所有跟口罩相关的科普知识,我们会通过意图分析,把数据库里信息做分类处理,把口罩相关信息推送给用户,让用户自由阅览。
秉承开放的态度,除了在腾讯健康上线之外,我们还对外输出,比如服务了17个省区40个卫计委和疾控中心,还服务了近100家医院。
甚至还做了一个接入指南,帮助他们去更快速地接入,可以把我们的工具嵌入到他们的小程序里,做智能问答;也开放给行业合作伙伴,有30多家行业合作伙伴最终接入了我们的系统。
患者小区查询
严格意义上这是患者踪迹查询,有些地方会公布患者踪迹,去过哪些餐馆,哪些公开场所,只要这些信息权威来源公布,我们就会纳入查询范围。
目的是让信息能够透明,信息越透明越可以避免民众恐慌,可以增加政府的公信力,民众可以更好地理解和配合政府抗疫措施。
因为我们平台触及用户比较多,展现也比较灵活,所以可以更方便把不同来源的信息,包括是官网、微信公众号、微博信息集成起来,在一个平台上集中展现。
信息可以展现在地图上,用户实时交互,得到比较好的用户体验,我们最终覆盖城市232个,城市覆盖率超过70%。覆盖小区数目超过8000个。
这是我们产品的展示效果,可以根据用户地理位置,可以把周围小区都覆盖在地图上,以确诊患者小区,画三公里半径圆,用户可以很清楚看到患者小区距离,也可切换到列表模式,给出小区名字、地址、距离等信息。
每个信息我们还注明截止日期、从哪公布,也有订阅功能,如果你周围小区有情况更改,会自动推送。我们还有一些科普的知识,比如小区出现患者该怎么办。
制作工具的难点主要有三个:
第一个难点:信息滞后。 最笨的方法是人工直接寻找信息,做一次就上线,可这个方法最大问题是源于信息更新,因为疫情高峰时期,每天都会有新的小区出现,有信息更改,所以希望越自动化越好。
我们是采用自动定时爬取的方法,每天爬取2到3次,对爬取的信息用自然语言理解模型,提取小区名字、信息发布来源、信息发布时间等信息;提取出信息以后,跟数据库里已有信息做比对去重,比如小区不同名称,最后,所有数据都要做人工校验确保来源准确。
第二个难点:信息来源欠缺权威性。 我们的受众比较广,能力越大责任就越大,所以当时设计产品的时候,最重要的考虑就是数据来源必须官方渠道。
所以我们就开创性地提出,一种正向反向溯源方法提高数据质量,因为开始冷启动的时候,没有权威信息来源列表,最开始的爬虫方法信息质量没有保证,所以一旦提取到小区发现确诊病例,就会用这个小区名字反向搜索,可能出现几十个信息来源,最后去定位最权威来源(一般来源于官方的发布)。
找到权威来源之后,我们才把信息放到工具上,没找到就放在内部数据库不会上线。发现权威来源以后,不在我们的白名单里,我们会把这些来源加入到我们白名单。
第三个难点:小区信息未关联具体地址或地理坐标。 一般官方发布都只给小区名字,很难做交互,体验也不好,所以我们跟腾讯地图合作,他们开放API给我们,拿小区名字去搜索,然后得到经纬度,名称也做归一化。
名称归一化很重要,官方发布的小区名字和腾讯地图直接做匹配,30%小区不能匹配,我们花了很多功夫做人工审核、做数据清洗保证数据准确性。
这里我只展示一个技术,利用BERT模型做小区信息抽取,抽取的信息包括小区名称、发布时间、数据来源等。对BERT模型来说,输入有两块,一块是段落文本,一块选取信息,假如,想抽取小区信息就输入患者小区4个字,就会做词向量的空间embedding,再加上位置信息,模型会自动告诉我们,提取的信息起始位置、终止位置,做到非常自动化,减少人力寻找。
新冠CT辅助诊断
这个项目的初衷是提高诊断准确性。现在新冠诊断有两条技术路线,一个是核酸检测,核酸阳性就代表携带病毒,只要不是操作失误,就非常准确,但是有假阴率的情况。核酸检测还有供应量不足、检测时间长等其他问题,最终确诊需要一天或两天时间。
另外一种方法是CT检测,CT普及率高,一般县级医院甚至乡镇医院都有CT扫描仪,扫描速度也很快,5分钟就可以,假如现场有放射科医生阅片,再需要15分钟左右,就可以知道肺部CT是否有新冠肺炎症状,比核酸检测更快,敏感性也比较高,根据钟南山的论文中76%的患者肺部CT会出现异常,敏感度超过核酸。
国家卫建委第5版新冠肺炎诊断指南里,把CT作为一个临床诊断标准(仅限湖北省份)。以后,2020年2月13日,湖北省确诊病例单日增加将近15000例,其中大部分是基于CT影像确诊的,意味那批核酸阴性的病人,得到了真正的确诊,后续可以更加合理的治疗。
CT上可以看到肺炎病人还是有比较明显的症状,当然早期、进展期、重症期症状是有区别的。在早期主要是磨玻璃状阴影,不是完全实心,可以看到后面的血管,跟正常肺组织差异比较小,到进展期、重症期会慢慢实化,最严重时候可能变白肺。
对CT的诊断,无论对医生、还是AI算法都是非常巨大的挑战。
首先新冠肺炎是新疾病,对医生来说,特别是初级医生,都没见过这种疾病,准确诊断是很大的挑战。早期阶段表征是磨玻璃状,背景对比度不够强,此外磨玻璃本身就存在同状异病的情况,诊断准确率会受影响。
对于武汉一线医生,做CT检查人特别多,工作量特别大,每天都是超负荷工作,一个薄层CT扫描会产生300张左右的影像,肉眼阅读可能需要5到15分钟,对医生来说确实需要一个能够帮助提高诊断准确率,加快阅片速度的助手。
对AI算法来说,也是非常巨大的挑战,因为疫情爆发初期,很难获得大量数据。我们第一个版本只用一周时间就要开发、迭代,最终落地。还有标注的问题,因为前线医生都非常忙,我们不想打扰前线医生抗疫工作,也不可能让前线医生给我们标很多数据。
但好在我们团队过去两年一直关注小样本学习问题,最终用自研小样本学习技术,在数据量不是特别大情况得到比较满意的准确率。
我们医学影像团队过去几年技术积累还是非常好的,比如通用技术,2019年我们参加的医学影像竞赛,其中拿到5个竞赛的冠军,光在竞赛总奖金上就达到35万,里面包括检测、分割和分类,覆盖医学影像大部分任务。
当然我们也有很多相关技术积累,比如肺结节筛查,虽然病例可能不是肺炎但可以作为负例去训练分类器。
还有更相关的项目是,我们跟国内顶尖的传染病医院,在免疫抑制人群肺炎(PCP)和普通人群肺炎这两个分类上做了很多科研工作,这个工作跟现在新冠肺炎的项目非常像,也积累了很多数据。
最后相关的是小样本学习,我们在小样本学习上也有很好的技术积累,去年我们开源了一个MedicalNet预训练模型,通过预训练,在小样本上做微调,可以提高分类准确率,同时也研究了很多自监督学习和半监督学习技术,相关工作也发表在去年的一些顶会上。
在落地方面 ,腾讯走了一套跟别人完全不一样的落地路线,采用车载CT+AI+远程筛查整套方案,项目背景是腾讯基金会从15亿抗疫基金里拿出一部分,捐赠了6台CT扫描仪。
前期主要是捐献给广东医疗队,当他们到需要到武汉去,帮助前线抗疫。所以对这些医生来说,他们就像个战士,走的时候必须有武器,没有CT扫描仪,就没法做很多检查,所以我们捐赠了6台设备。
这是当时发车的照片,可以看到这是集装箱,里面装载了CT扫描仪和AI服务器。部署到医院以后把集装箱放下来,通过一两天连调就可以上线,开始工作,过程非常快速。
除了捐赠6台CT扫描仪以外,我们也捐赠了7台AI服务器,其中6台,搭配着车载CT一起部署到医院。
这是我们产品的迭代的路线,大概分几个步骤,更新4个版本。
第1个版本时,时间非常紧,只有一周时间,因为第1台捐赠CT发车时间是2020年2月16号,我们拿到数据已经是2月初,后面还要跟CT厂家联调,留给算法开发的时间只有一个星期,当时也是顶着压力让同事们一起加班加点,最后顺利的完成任务。
我们分类任务是进行一个三分类,输入一个CT图像以后,首先分析是不是肺炎,因为也可能是肺结节、其他肺部疾病、正常无疾病。确定是肺炎之后,还需要区分是病毒性肺炎(新冠肺炎),还是其他肺炎(细菌引起抗细菌引起感染引起的肺炎)。
第2个版本我们又加了肺炎区域分割,可以统计病灶数目、病灶体积、病灶占肺部区域的百分比等,后面又加了肺叶定位和随访功能。
谈到分类任务,因为第1个版本时间非常紧,数据量又非常少,所以我们用自监督学习方法,也就是魔方自监督,这是我们去年在医疗影像AI顶会(MICCAI)上发表的论文。
自监督学习就是给原始图像额外标签去设计任务,任务可以从原始图像中拿到(自己定义)一些标签来监督我们网络的训练。
当时我们设计任务是将三维CT图像切分成一些模块,比如2×2×2的8个模块,拿到这8个模块以后,我们随机打乱它顺序,每个模块可以沿着不同的轴做随机旋转,就像一个打乱的魔方。我们的神经网络就是试图去恢复这个魔方,给每一个模块找到原来的位置,然后判断模块是不是被旋转过。
神经网络被训练出来以后,我们采用迁移学习方法,在特定任务上微调,因为这种预训练方法不需要标签,可以在大量甚至几万例数据上做预训练,得到非常稳定的结果。
然后我们在小数据上微调做分类,就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎分类,可以有效放大有限样本量的效率,大家要感兴趣的话可以参考我们那篇论文。
肺炎分割是一个比较难的问题,特别早期肺炎,因为是磨玻璃状的病变,轮廓并不清晰,即使医生标注也有很大的方差,可以比较一下肺炎分割和实性肿瘤分割的情况。
这是脑胶质瘤分割,比较规则,形状近似于椭圆形,当然也有离群点,但是肺炎离群点更多,即使大块的肺炎区域形状都特别不规则。
我们用的三维卷积神经网络,能够充分利用层与层之间的信息,得到更有效的结果。对于这种三维图像分割,我们还是比较有经验的,去年在肝脏分割上拿到了第1名,肺部多器官分割上我们也拿了第1名,所以可以很快就上线功能。
这是我们落地的效果,总体来说灵敏度比较高,自测至少95%以上,假阳率也是可以接受的范围。
这是部署到前线以后的第1例案例,我们当时也非常紧张,因为我们也不知道系统部署到前线后的实际表现,患者是武汉医院医生,在之前患了新冠肺炎,等他痊愈之后,就负责主持我们公司捐赠医院的感染控制。当时他自告奋勇做第1次扫描,我们AI诊断结果肺部影像是正常的,也符合当时他的情况。
右边是比较难的案例,已经变大白肺,通常认为大白肺可能就已经是新冠肺炎晚期,初级医生认为是新冠肺炎而高年资医生复核认为是细菌感染引起肺水肿,不是新冠病人,最后检测结果确实是细菌性肺水肿,和我们AI诊断结果一致。
肺炎疫情趋势预测
这是和政府合作的项目,疫情防控部门给我们要求,想知道武汉或者湖北放开管控以后,会不会形成反弹,海外输入风险有多大,哪些国家对我们风险最大等。
针对这些题目,我们又做了专题研究,构造模型,把结果跟他们做定期汇报,为政府决策提供依据。对民众来说,只要了解中长期趋势也是有帮助的,因为每天数值都在变,假如他们知道中长趋势就会保持更平和的心态,更好的规划工作和生活。
对于肺炎趋势预测来说,大概有两种方法:
第一种,传统传染病动力学模型,这个方法对参数非常敏感,非常难调,因为参数一改变它结果就出现很大差异,特别是R0参数(病毒基本传播数),表示平均下来一个病人会传染多少正常的人;
第二种是机器学习模型,纯数据驱动,这种方法的问题是数据训练量比较少,做复杂的模型很有点难度。
里面有几个创新,一个是改造传统传染病模型,传统的SEIR模型中S代表易感人群,E代表潜伏期,I代表你发病了,R代表你在康复。这个模型更多是用于流感病人,比如到医院确诊流感,医生给你开药回家了,康复期还在社会上自由活动,就有一定传染概率。
新冠整个管控方法是不一样的,一旦发现是确诊病人就会被隔离,所以在康复期就不会在社会上自由走动,所以把模型最后状态改成了Q,变成了SEIQ。
这个模型整个来说就是说不同状态之间有一个转化速度,所以有几个参数:β、γ1、γ2等。第1个改进是我们加我们把R替代成Q;第2个改进就是基本传播参数。
刚才提到这个参数非常敏感,另外参数还随时间变化,随着病例的不断增加,政府可能会采取更加强力的措施,把R0这数值字降下来。所以我们认为R0是随时间转化的数,不是固定值,基本假设是指数下降的,有基本、初始的和最终的参数,中间是指数下降的过程。
模型的参数有些是新引入,有些是原来就有。对于参数,我们不是直接去指定,而是给一个预定范围,根据参考文献或其他途径,知道预定范围,比如R0,我们认为在2到7之间比较好。
用机器学习的方法把模型拟合到实际观测数据中,找到最优的一组参数,模型训练好之后就可以做预测。
这是我们几个案例,一个是全国(非湖北),实际情况跟我们的模型非常吻合,因为全国大概是1月20号钟南山院士宣布肺炎人传人以后,就开始有数据出来。
我们用1月20号到1月27号这8天数据,蓝色是我们训练样本,黄色是后续实际每天确诊人数,红色是我们的模型预测结果。
可以看到27号就开始很好的预测未来一个月的变化,随着训练样本量越来越多,时间往前推进,可以看到模型越来越准确。
第2个是湖北(非武汉)的数据,更难一些,因为开始湖北的一些数据不符合传染病规律,在2月4号之后,才能够比较准确的预测。
这是武汉的数据,2月13号湖北改变了诊断策略,把CT诊断加入标准之后,那天增加了很多病人。所以我们也提出一种方法,把病人往前折算到每天,根据疑似病例和确诊病例的比例折算回去,灰色代表折算以后的病例数目,到2月中旬模型就可以得到不错的结果。
后面下降期我们预算很准确,上升期确实很难,因为出现的数据偏离传染病特征,很多病人还在社区没有被筛查出来,实际数据不够真实。
2月底,负责项目的孙继超博士在内部论坛上介绍了我们的算法,回溯性的给了部分结果,他在3月3号发布了一个预测,虽然当时全国很多地方新增变成0,但是武汉每天还在有很多新增数字。
他预测武汉一周以后累积数字,什么时候降到个位数,什么时候归零。我们后来用实际数据验证来看,预测的准确率还是比较不错的。
比如,模型预测3月18号到20号之间,武汉的新增最后会归零,实际确实是3月18号新增数字归零,还有预测了武汉最终确诊病例会是49941,最终是50005,两者非常接近,只有千分之一的误差。
R0随时间的变化曲线,可以看到确实在疫情初期,武汉的传播系数非常大,远远高于全国和湖北非武汉城市,随着政府管控力度加大,R0的系数也在不断减少,最终收敛到0.2左右。
海外疫情爆发以后,我们的合作单位也希望对海外的疫情做预测,希望得到接下去半个月之内,哪些国家对我国海外输入风险最大。
这是还在飞速发展的几个国家,主要是欧洲的意大利、西班牙和德国,在星期一做的预测,预测之后一个月的变化情况。
预测意大利即将到达拐点,新增病例达到顶峰,之后,新增病例量开始往下走,预计在4月2号、3号左右达到达拐点,一个月以后总确诊病例数达到24万。
模型预测西班牙的拐点比意大利晚3到5天,会在4月6号左右,最终确诊数目可能跟意大利差不多。德国会更晚一点,要到4月20号才能够达到高峰,然后接下去就往下走。
所有模型预测都有很多不确定因素,我们现在放出来,就是想看看,最终实际情况是不是和模型预测一致。
今天又做了美国的预测,还是比较难的,可以看到模型预测美国每天发病的数目和实际有很大偏差,主要是因为美国基本轻症患者,就不做核酸测试,只有满足重症住院要求,才做核酸测试。
所以看到早期美国数据增长非常慢,然后几天突然增加,原因可能是疫情爆发,或者是补偿性行为。前期被隐藏的病人,开始放开做检测,确诊量开始补偿性增加。我们对这个预测的信心不是特别足,根据模型预测,估计在4月17号左右,会达到高峰,接下来缓慢下降。
此外,假如美国不采取更强力的措施,我们估计5月15号,确诊病例会超过100万,希望不要发生这个情况,这需要他们的政府采取更强硬的管控措施。
我们跟合作单位还做了另外的课题,是湖北放开管控以后的反弹情况,这个模型比较受限,参数比较少,最主要是R0参数。
假如用其他模型,比如深度学习,很多参数可以直接输入,比如确诊人数,当地人口密度,当地生活水平,医院数目,平均活动范围(代表管控力度),当地气候温度等,这些都可以作为参数输入,所以深度学习模型,就是这里展示的LSTM模型,会非常灵活,对平均活动范围非常敏感。
管控最大的体现就在平均范围,因为管控力度大,待在家里每天活动范围就很小,放开到处跑,平均活动范围就大,所以我们发现模型,对平均活动范围非常敏感,所以用LSTM模型做了训练和预测。
这是当时和合作单位汇报的结果,2月17号做的预测,蓝线是真实,连续光滑的曲线是我们预测结果,17号做预测,预测2月21日、22日、23号放开后会出现反弹。
放开有两种模式,一种全面放开,比如武汉1月22号封城前的情况,人的平均活动半径从1.8公里增长到22公里,确实会出现反弹,但是反弹不是特别致命,假如政府保持发现即隔离的管控措施会逐渐下降。
我们又做了不完全放开的预测,用武汉2月24号的数据,人群平均活动范围,可以看到不会反弹,但是下降速度会稍微慢一点。
对鄂州做预测
我们对鄂州做了一个预测,它是非常小的地级市,紧邻武汉,人口在100万左右,在27号做预测的时候,疫情还不够稳定,刚刚过了拐点,还在上下波动时期。当时是按照完全放开进行预测,出现较大反弹,超过历史峰值,人数从50多反弹到180,接近三倍,而不完全放开,保持一定管控力度,反弹力度会小一些,不过还是会接着反弹。
最后感谢天衍实验室大数据组、自然语言理解组和影像组的同事,他们过去两个月非常辛苦,加班加点,利用人工智能技术快速上线和落地新的功能,希望我们所做的事情,可以为全国人民的抗疫事业做出应有的贡献。
。