阿里达摩院出手!AI算法加速全基因组检测,疑似病例可更快确诊-天下网商-赋能网商,成就网商
天下网商记者 王安忆
阿里巴巴达摩院正在用AI算法抗击新型冠状病毒感染的肺炎疫情。
2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台。利用阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时,大幅缩短确诊时间,并能精准检测出病毒的变异情况。
该平台采用不同于核酸检测方法,而是以一项全基因组检测技术,对疑似病例的病毒样本进行全基因组序列分析比对,能够有效防止病毒变异产生的漏检,大幅提高疑似病例的确诊速度和准确率。
阿里巴巴达摩院称,未来,这项AI算法还将用以支持疫苗与药物的研发。
核酸检测的效率和缺陷
全国新型冠状病毒肺炎疫情依然严峻,快速精确的诊断,对疫情控制尤为重要。
目前,主流检测手段为核酸检测方法,原理是比对疑似病例的核酸构成跟病毒的核酸构成,完全对上就可以确诊。
这项技术相对成熟,但由于新型冠状病毒生物安全等级较高,为防止泄漏和操作人员感染,大量自动化过程改由纯手工操作,导致实际检测时间相对较长。
央视记者探访新型冠状病毒核酸检测的过程
此前,央视记者曾探访过陆军军医大学第一附属医院传染病专科实验室,记录下新型冠状病毒核酸检测的全过程。
实验室操作人员需要采用里外三层防护
实验室操作人员均采用里外三层防护,从疑似患者鼻咽部采集到的上皮细胞,与液体相混安置在试管之中。打开试管后,由于里面可能含有新型冠状病毒,操作人员为了避免产生气溶胶(比飞沫更微小的粒子,借助空气传播),无法用漩涡震荡器混匀溶液,只能小心翼翼地用手来混。
接着,操作人员还要把试管放入56摄氏度的金属加热器中,以裂解病毒释放核酸,然后经过2分钟12000转的离心操作,将病毒吸附在一根有两道绿色薄膜的试管上,后面又经过三次不同规范的离心操作,提取出疑似病毒核酸。
把试管放入56摄氏度的金属加热器中
全部完整检测要经历十几道工序,从实验室门口接样到最后出检测结果,单一样本需3个小时才可以完成。
此外,为了确保检测结果可靠可信,通常一个疑似病例都要采取2至3份标准样本,同时开展标准核酸检测,复核后才能公布疑似病例检测结果。
眼下,全国能够进行新冠状病毒核酸检测的医院和机构逐渐增多,核酸检测试剂盒产量也逐步跟上。比如武汉大学中南医院医学检验科就改良了核酸提取的方法,最快2个小时就可以得出核酸检测结果。
武汉大学中南医院医学检验科工作人员在进行样本检测
然而,截至2月1日24时,国家卫生健康委收到31个省(自治区、直辖市)和新疆生产建设兵团累计报告确诊病例14380例,疑似病例有19544例。人工的核酸检测“扛不住”每天不断新增的疑似患者。
更重要的是,核酸检测方法也有不足之处。
此前,湖北省疾控中心已成功完成新型冠状病毒分离与全基因组测序工作,获得病毒全基因组序列,全长29847bp,是基因组序列最长的病毒之一。
新型冠状病毒结构
而核酸检测方法,只能检测到病毒基因的局部。由于病毒存在变异可能,因此对于整个基因序列来说,核酸检测犹如盲人摸象,一旦病毒发生变异,就可能出现漏检的情况。
达摩院AI算法克服高通量测序不足
不同于核酸检测方法,浙江省疾控中心上线的自动化全基因组检测分析平台,是以全基因组检测技术,对疑似病例的病毒样本进行全基因组序列分析比对,能够有效防止病毒变异产生的漏检。此外,平台在新型仪器以及算法的加持下,有效缩短了全基因测序的时间。
据介绍,疫情早期,核酸检测可以顶上用,但越往后走,越需要全基因检测,因为后期防疫的核心是防止病毒变异。
全基因组检测分析平台由浙江省疾控中心、阿里巴巴达摩院、杰毅生物共同研发,为浙江省疾控在新型冠状病毒疫情防控上提供了全自动建库和分布式计算分析能力。
设置基因检测分析参数
达摩院称,此次研发的自动化全基因组检测分析平台属于高通量测序,在AI算法的加持下,克服了前处理和数据分析费时费力的不足。
在整个平台中,杰毅生物开发了全自动高通量测序建库仪,把整体常规人工需要12小时的工作缩短到2个小时。
当每次测序过程中产生的海量基因数据,则交由达摩院AI算法进行分析。
疫情发生后,达摩院组建了十余人的团队,算法专家顾斐博士第一时间奔赴浙江省疾控中心。
达摩院团队针对新型冠状病毒基因进行特征分析,决定采用分布式设计的分析算法,并基于蛋白质数据库(PDB)等公共数据集的数据进行算法的优化训练。
顾斐表示,在序列比对过程中,他们对算法增加了分布式设计,病毒基因分析的速度由数小时缩短到半小时,从而大幅提高疑似病例的确诊速度。
达摩院算法专家顾斐博士在疾控中心基因检测分析现场
同时,由于采用分布式算法,病毒拼接的速度由30分钟-1小时缩短到15-30分钟,能帮助医护人员检测到病毒全貌,变异的病毒也能精准检测,大幅提升确诊效率。
顾斐提到,病毒序列拼接完成后,通过设计BiLSTM+DNN的方式训练模型,可以在15-30分钟内预测病毒蛋白二级结构。同时,达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型,为药物研发贡献技术能力。
这个平台已于2月1日上线浙江省疾控中心,可有效提升疑似病例确诊效率,及时阻断病毒的传播。达摩院表示,他们也正在努力与合作伙伴共同将这套系统推广至全国。
目前,有6个确诊病例样本,正在通过该平台进行基因组序列的测定与分析。截至发稿前,这些样本中检测到的新型冠状病毒与最早在武汉确诊病人身上发现的病毒基因组序列高度同源。