突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代
世上没有两片完全相同的树叶,人体内的每两个细胞也是截然不同的。长久以来,基因检测技术主要是在组织层面对样本进行解析,获得的是成千上万个细胞的平均值,但这会让很多信息是被隐匿,对疾病的认知和理解存在很大的障碍。
单细胞检测技术将基因检测的水平提升到了单细胞的精度,可以揭示每一个细胞的细微变化,对疾病的认知、诊疗方式的改变、药物研发的方式提供了更好的方法。而其中,高通量测序(NGS)技术因其高度准确性和特异性成为了单细胞测序的理想工具。
寻因生物,是一家自主研发单细胞技术的精准医疗生物医药企业,致力于通过国产高通量单细胞全链条产品及服务,将单细胞技术普适化,应用于临床及药物研发,推动相关疾病研究。
通常,单细胞测序工作流程包含单细胞样本制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读四个步骤。作为国内独家拥有微孔芯片与油包水双技术平台的寻因生物来说,单细胞样本制备、单细胞分离和文库制备是其强项。同时,寻因生物具有完备的数据分析和解读能力,底层分析计算效率的提升十分必要。
据悉,在单细胞测序数据分析环节,业界普遍存在数据量大、分析时间长的挑战。仅一个单细胞测序文件的大小可达100GB以上,而随着一个单细胞项目包含的样本量越来越多,可能产生数百GB甚至TB级的细胞数据;同时,单细胞数据的分析复杂,需要反复做数据读取和参数调整,所以处理海量细胞样本的分析任务通常需要数小时甚至数天才能完成。因此,超大数据量和分析复杂性所导致的任务并发度低和数据加载速率慢是未来单细胞分析性能的主要瓶颈之一。
在单细胞测序数据分析过程中,每个细胞的表达量数据高达数十万条读取 (reads),产生的数据更是要大得多,这种海量级的数据分析对云主机的内存容量提出了更高的要求。而通用的云主机的内存容量与CPU配比有限,单细胞的分析任务常会出现因内存不足而导致运行失败;而选用传统的大内存云主机,不仅要付出更加高昂的成本,而且会造成CPU算力的浪费。所以,内存容量的限制使寻因生物不得不将样本参数调低来满足运行任务。此外,通用的云主机仅能支持运行一个单细胞分析任务,在测序任务多的情况下,寻因生物只能将多任务排队执行,非常耗时;同时,在测序数据分析过程中,每次临时数据在磁盘上的导出和加载(IO)过程长达1000秒,随着数据集的持续增长,这种处理速度阻碍了预期的研究发现时间。
当前,寻因生物将单细胞测序分析任务部署在了第三代英特尔® 至强® 可扩展处理器 (代号: Ice Lake) 和 英特尔® 傲腾™ 持久内存的阿里云i4p持久内存型实例上,并在实例中使用了MemVerge公司开发的 Memory Machine大内存软件,不但完全消除磁盘读写带来的IO瓶颈,帮助寻因生物成功地运行了多细胞数、大样本的测序数据分析任务,并能通过Memory Machine的ZeroIO内存快照功能使数据导出和加载从原来的1000秒降至2.5秒,将数据读取的效率提升了两个数量级。
阿里云i4p持久内存实例是阿里云基于英特尔® 傲腾™ 持久内存推出的第二代持久内存实例,傲腾® 持久内存让高性价比的大容量内存与对数据持久性的支持巧妙地结合在一起,将更多数据保存在更靠近CPU的地方,加速了大内存计算, 可以说重新定义了传统的两级存储架构。
除基本vCPU和内存外,阿里云i4p实例还配置了持久内存资源,极大地扩展了主机的内存容量,让内存中可以存放更多数据用于测序数据分析,同时并发运行更多的测序任务,相对于传统普通大内存实例,i4p持久内存实例可以帮助用户打破“内存墙”藩篱,获得更高性能的同时,有效降低整体IT基础设施拥有成本(TCO)。
MemVerge开发的Memory Machine大内存虚拟化软件,可运行在i4p持久内存实例中,将其中的持久内存和普通内存进行融合,可以透明地使用大内存资源,无需对应用进行改造,即可充分发挥持久内存的全部性能;其软件的高级功能“ZeroIO内存快照”,可以完全避免临时数据的磁盘IO过程,实现客户应用性能的飞跃。同时通过阿里云计算巢还实现了Memory Machine大内存虚拟化软件与云平台的标准化集成,实现快速的软件交付部署和标准化的运维管理,大幅提升了业务效率。
“这能够使我们的单细胞数据分析业务完全消除IO瓶颈,并在实际的分析任务中将持久内存的大容量能力充分利用起来,让任务的并发能力提升了5倍以上,且该方案能让多细胞数,大样本任务能顺利地运行成功,对提高我们生信用户的业务吞吐能力和工作效率有非常大的助力。”寻因生物公司生物部张广鑫表示。