基于大数据的人体组织微结构的解析与构建
◆ ◆ ◆
导读
清华大数据思享会医疗大数据系列之“基于大数据的人体组织微结构的解析与构建”于2016年09月22日下午在清数D-LAB成功举办。
深圳艾科赛龙公司创始人赵小文深刻阐述了医学 大数据 的技术架构,以及对骨骼、血管等人体组织微结构的量化简析和构建的方法,并将这种方法延展到蛋白结构的量化解析和构建上,为再生医学的发展奠定了个性化的组织工程学基础。以下为演讲全文:
◆ ◆ ◆
一、技术趋势
医学大数据的架构具有很强的扩展性,在获取人体的基本数据以后,不仅可以构建人体的解剖结构和生理结构,而且可以从分子层面去构建微观模型。例如,基于一些复杂的数学模型,可以从DNA序列推演到mRNA结构,最后构建这段DNA序列表达的蛋白结构。近年来包括医学在内的多种学科不断交叉融合,学术界的交流以及创业公司都在努力推动多种技术的融合。在医学上不仅仅牵涉到临床医学,同时涉及生物学、分子生物学、细胞生物学、化学等等,以及自动化,包括检测、统计、分析、影像等方面都会涉及。当然,数学肯定是最基础的,建立数学模型、复杂的算法都跟数学基础息息相关。新兴的大数据即数据科学,也离不开基础的计算机科学。所以,未来医学是众多学科融合的综合科学,大数据的价值是众多领域量化的数据融合,这就是技术趋势。
◆ ◆ ◆
二、价值驱动
过去解决实际临床问题更多依赖于医生的经验,不论是生理层面还是分子层面许多都还没有被完全的量化,而是记录在医生的经验当中。医院也已经采集到很多数据,存放在不同的计算机系统中,但是基本以数据孤岛的形式存在,并没有被充分利用和挖掘,而这些其实就是做基础研究最重要的数据。
医学大数据发展有三大价值驱动力,首先是生活质量的提高,人们对生命质量或者是健康质量的不断追求和高标准的要求;其次是在高品质生命健康需求下促使成的生命科学技术的进步;最后是基于生命科学技术进步的临床手段不断丰富,临床治疗质量不断提高,这就是整个医学大数据价值驱动的核心。此外,巨大的患者人体组织器官替换的市场需求也是重要的驱动因素。
◆ ◆ ◆
三、行业背景
整个再生医学行业的大背景是全球每年大概有8000多万的各种组织器官的需求,包括脏器器官、软骨、胰、颅颌面、眼膜等,目前只能通过捐献满足,而捐献所能满足的需求是非常有限的。所以,众多科学家希望可以获得除了捐献以外的方式来替代和满足大量的需求。脱细胞异体移植是正在研究的一种方法,即从供体上取出的组织脱细胞后,种植受体的细胞进行培养,然后再移植到新物体上。比如猪或牛跟腱组织取出来进行脱细胞处理,然后异体组织移植。自体移植的方法可能会造成二次创伤,而异体移植也可能因为分子层面未被认知的部分影响生物的生存。所以,眼下的科学家研究采用人工合成、天然高分子或者生物仿生等材料,构建人体组织器官的结构,如骨骼的结构,把细胞种植在上面,然后再做培养骨骼的移植,目前大量的实验证明这种方法是可行的。每个人的人体骨骼从头到脚的结构都不一样,不同骨骼的功能也不一样,有的是起支撑作用,有的是为神经和血管等提供营养供给载体,有的起保护脏器的作用。因此需要针对每个患者的骨骼等受损组织器官的微结构进行精准构建,而组织器官微结构的精准构建需要通过艾科赛龙进行精准的解析并构建,然后才能提供给临床去做治疗。在中国通过捐献方式获得器官移植的每150万人当中,只有1万例获得捐献,其余的因未能得到及时治疗而死亡。癌症、新发肿瘤、心脑血管疾病等患者数量,再加些意外创伤、事故等患者人数,再生医学技术的需求将越来越大,并且日趋紧迫。
◆ ◆ ◆
四、重塑精准医疗
国内对精准医疗的理解主要是停留在基因层面上,而精准医疗的概念在外科领域最早被提出,精准医疗其实是针对个体化治疗的、针对个性化各器官的医疗服务。例如,骨组织的修复,完整的骨组织功能重建,需要匹配生理环境,这也是精准治疗的范畴。重塑精准医疗的整个流程首先是基础数据的采集,这是医学大数据的挖掘的基础,数据的采集方式很多,包括临床经验数据、自动化设备的影像数据(CT、MRI)、基因测序数据等。其次是数据的解读与分析,通过建立相应数学模型、采用机器学习等技术对医学数据进行挖掘。
接下来是临床治疗和技术支持,把数据解读和分析的结果变成实用、落地的产品或方案,用于临床治疗或技术支持,如个性化解决方案、手术导航板及个性化植入物等。再者结合个性化治疗的量化指标,跟踪随访、复诊,形成精准医疗的闭环。最后,将汇聚众多的临床经验、数据进行完整的解析与融合,形成精准医疗完整的路径和思路,从而建立巨大的精准医疗系统。这个系统不仅包含外科,也会涵盖内科。借助这样一套巨大的系统,将骨骼等外科以及脏器等内科学所涵盖的组织器官量化解析,从数据开始重塑整个精准医疗体系。
◆ ◆ ◆
五、人工神经网络与深度学习
人体生理环境下各种数据是有相互关联性的,单个数据拿出来,如影像数据与血液的检测数据,与单个细胞或者干细胞是什么关系?在人体外的彼此间的关系不大,所以必须构建起彼此之间相互关联的系统,模仿人体真实环境。搭建这样的系统涉及的数据非常庞大,通常需要通过多层的运算,应用较为普遍的人工神经网络。人工神经网络的架构与人体神经系统有些类似,通过计算机模拟神经网络的运行方式来构建,据说谷歌已经可以建立50到100多层的神经网络运算,而通常应用只有几层。在实际应用中,艾科赛龙没有建立那么复杂的关系,但会经过多个环节的处理以达到更好的效果。人工神经网络的单神经元通常由计算单元、连接单元和计算结果组成,再由多层神经元建立神经网络。计算单元对外面获取的信息进行计算,获得信息分配的权重,也是经验值,计算结果再进行加权、综合等处理,经过多层的运算,就形成人工神经网络的基础架构。
拥有海量数据和建立分析的系统架构后,利用相关专业的算法和分析的数学模型进行挖掘,从而获取最终结果。海量数据和庞大的工作量,需要有效利用计算机的计算与运算能力,通过机器学习和深度学习赋予计算机一定的智能,并结合人工神经网络实现自动化架构。
◆ ◆ ◆
六、数据结构化/量化解析
建立这样一套架构的目的是要经过大量数据对机器进行训练,使得机器可以相对独立地计算与判断,并得出相对精准的结论。艾科赛龙做的骨科学领域,基于几万例的数据不断地对机器进行训练,机器现在可以独自进行计算与判断,并得出相当精确的结论。
基于深度学习和人工神经网络架构运算,得出的数据和结果是结构化的。这个结果就是结合临床和医学,进行定量计算、结构解析、判别细胞毒性和癌症病变等,以及对肿瘤标识和药物筛选,甚至是组织构建和再生。所以量化与解析的目标就是解析人体的组织的微环境及微结构。骨骼结构可以看作脱细胞之后的物理结构,微环境就是组织生存的复杂的生理环境,最终的目标就是要解析组织的微结构和微环境,具体表现为细胞与细胞之间、细胞与组织之间、组织与组织之间的相互作用。例如解析血管的微环境和微组织,需要清楚认识血管细胞与构成管壁的肌细胞、甚至脂肪细胞之间的关系,即细胞与细胞之间的关系,以及组织与组织之间的关系,血管的毛细血管网络化以后,如何向组织渗透营养、输送营养等。
最后将多领域的数据融合,经过缺失量化和精准构建,可以做到精确统计、精确预测,最终精确地输出一个产品或者是一个结论。
◆ ◆ ◆
七、再生技术
再生医学技术是用医学、生物学、化学、等多个学科与工程学相结合的方式,重新构建或修复人体或动物失去功能的组织、器官,使其具备正常的生理功能。具体包括多功能干细胞诱变、细胞迁移、组织再生修复,组织替代等。修复组织结构和生理结构以后,再生医学技术最终目的是要恢复生理功能。
再生技术最重要的环节是干细胞,几种有代表性的干细胞定向诱变,如iPS、MSCs等在技术和实验中已经比较成熟。再生技术与干细胞的结合的路径首先是通过种子细胞培养获得组织细胞。然后通过对组织器官的精准解析和构建,并结合生物3D打印构造仿生的微结构和微环境。接着将培养的组织细胞与仿生微结构在微环境下进行活性的培养,激活构建的组织器官的功能。活性培养完之后就构建了具备相对完整功能的组织器官,从而可以继续进行临床治疗。经过整个过程的治疗,患者能够最大限度的恢复缺失的组织生理功能,从而真正提高患者治疗质量。
◆ ◆ ◆
八、组织识别/解析/构建
组织识别是比较关键的技术之一,涉及的影像数据比较多,包括基本的图形演化和基本数据。组织识别首先要对组织进行分类,识别出哪些是血管、神经等,并标识组织特征。然后要对细胞的膜、质、核进行区分。之后还要进行蛋白层面的评价打分,基于蛋白质的功能定位进行打分评价,完整的区分细胞外基质跟细胞的关系。最后要进行完整数据解析及校准,与现有数据库的数据进行完整对比,缺失的部分可以基于数据实现修复等。
举个例子:为了获取血管的结构组织,即微结构与微环境,不仅需要清晰描绘出心脏中非常复杂的血管网络数据,也要清楚肝脏、肾脏、脑部、后肢、四肢等不同器官的血管网络数据,甚至新增肿瘤的血管网络数据也要进行采集,否则建立的 数据分析 模型可能不完整也不科学。基于大量数据的机器学习和数据结构化,并且不断重复和强化这个过程,最终实现对静脉血管的量化解析和数据融合。
量化解析的目的是构建静脉血管的微结构,结合生物3D打印技术就可以完成静脉血管的体外构建,再加上细胞培养技术可以实现个性化静脉血管的生产。通过将解析和构建的静脉血管的结构与实际静脉血管的影像,或者脱细胞后的血管结构进行比较,我们发现是一模一样的。对静脉血管进行局部放大以后,就是图中的样子,之前没有人对血管的局部进行如此详细的仿真,当中可能有些部分还要继续完善,然而个性化组织器官的产业化或者量产商业化,还需要做适合培养并不断地完善。目前,市面上的人工的血管其实都只是一个生物材料的管状物,不能像这里描述的一样,根据个性化的微结构来构建。
我们的一个国外合作伙伴建立的一个软骨的临床前动物实验(如图),主要是为了对比我们构建组织的组织修复情况。通过实验组与对照组的比较,清楚地看到对照组软骨组织修复的效果和血渗的情况,而实验组的软骨组织实现了理想的修复。
下面分享我们做的一例临床实验案例,一个患者下颌骨有造釉血管瘤,手术切除以后需要对组织进行解析与构建,从而实现功能修复。我们做了一个仿生下颌骨,既要保证原来骨结构的完整性,也要保证手术以后的美观性,所以这也是个性化的需求。我们做这个复杂的案例时,先做基本的力学测试,获取了相关的数据,所以手术非常可靠。为了确保短期不出现问题,先做了基本的咬合咀嚼的关系的力学分析,最终构建上图中的模型,并通过3D打印技术实现出来。在3D打印的原型上种植细胞和涂敷软骨细胞及细胞外基质,其中软骨细胞在植入以后严重缺氧的环境下会释放抗炎因子。最后颌骨愈合后,基本就跟正常的一样完好。
颌骨缺损修复手术后第12个星期就会发现新骨头长好了,最高的地方会长出2.6毫米,最低长出2.5毫米。之前没有精准的解析和构建组织的做法,骨表面只能长0.5毫米,因为组织间匹配度不高没有足够的亲和性。第16个星期到第24个月之间在电镜扫描图(上图右上角)发现,我们构建的骨质结构已完全融合到患者本身的骨小梁结构中,已经分不清植入物表面新骨与原骨质的界面。
此外,在医学大数据架构下的仿生模拟组织,艾科赛龙联合国内外医疗研究机构共同探索的案例还有许多,左下角的两例分别是手指的指骨和脚趾的趾骨模型,结合细胞培养,最终也进入临床前实验。中间红色的模型(如图)是2014年底的时候为国外一家公司做的兔子的活性脊椎,大概在第4个月的时候取出以后,剥离了组织及软组织之后就剩下图中的支架(如图),这是4个月降解以后的样子,原来的结构已经不见,说明原来的结构基本降解成二氧化碳与水,被身体吸收。
上面蓝手套上就是前面提到的人造血管,是艾科赛龙利用解析与构建技术,再利用生物3D打印技术完成的,之后结合细胞培养,进行了三次培养激活实验。图右上角的是耳朵模型(如图),国内外的专家都做过很多的尝试。现在基于数据量化解析和生物3D打印已经可以精准的构建和打印耳朵原型,通过这种方式构建的“耳朵”就非常真实了,是完全的软骨骨基结构。
图左上角的修复体是针对退行性病变骨质流失以后,在关节里打洞植入的骨修复材料,就是右下角中的圆柱体(如图)骨修复材料。这种骨修复材料等同于通用的被临床认知的方式填充进去,而不需要使用以前常用的粉末材料去填充,即“骨水泥”。骨水泥填充后的后遗症非常多,如果用金属的材料,金属粒子与组织表面结合时间长之后,会渗入到人体组织,在人体组织某些地方进行沉淀,现有的大量实验数据印证了这些问题的严重性。
生物材料的植入物有逐步替换金属材料的植入物的趋势,包括现有人工金属关节和器械等,因为金属植入通常有使用寿命,植入之后必须做第二次、第三次甚至多次的手术,而生物材料手术植入人体之后,与本身组织的融合,不需要做第二次手术,除非手术做的不成功。
这个例子更能说明数据的力量。前面介绍的架构,在获取基本数据以后进行解析和构建,不仅可以在宏观方面应用,如骨骼生理结构的解析和构建,活性组织的外观就是它的解剖结构,内部复杂的细胞生长结构是微结构,综合起来就是生理结构;这种解析与构建的基础技术也可以延伸和扩展到分子层面的应用,如根据DNA碱基对的表达过程,可以基于类似的数据数学模型的解析和构建,实现蛋白质结构解析与构建和结构预测。图中是88个碱基对序列(如图),第二张是结构化处理后的图(如图),然后对碱基对的结构再做一次分析。DNA的表达和蛋白结构解析过程当然非常复杂,首先要把DNA的信息数据,测序的数据,mRNA的信息数据以及已知的蛋白质的折叠码做大量的计算及分析,mRNA在剪接体里进行遗传信息的交换,然后通过蛋白的形式进行表达也就是翻译过程,最后对数据进行校准和平衡,在数据和数学模型的方面完成大数据的基础库。
第一张图是DNA的双螺旋结构(如图),接着按照要求附加上相关的信息,经过这个量化过程,把它变成了稍微复杂的结构(如图),接着继续进行量化,将具体的物质赋予给这个空间,这些物质就是这个DNA所要表达的信息,最后还要经过多方面的或者是长期的验证,我们只是做了蛋白结构计算。接着进行蛋白质的共定位,然后进行打分评价,确定物质没有多余或减少,最终确认之后就解析和构建成了蛋白结构,或者说通过复杂技术预测了蛋白的模拟结构。
获取蛋白结构的传统方法是通过冷冻电镜在分子层面甚至在原子层面进行观察,然后根据观察到的形状画出来,而大型冷冻电镜在观察蛋白结构的时候无法进行及时的三维拍照,因为微管环境下蛋白是动态的并且结构也相当复杂。通过计算数学模型的方式,从基因序列开始构建蛋白结构,这就是数据的力量。上图中的蛋白结构还有许多不完善之处,需要继续构建基础数据库,只有当数据库足够强大的时候,通过这种方法构建的蛋白结构才非常准确。针对已知的蛋白质的折叠码建立基础数据库,将量化解析构建蛋白结构与数据库对比后进行验证。
后续各种实验、各种临床研究与转化和前沿技术的合作,都需要广泛而深入的研究,艾科赛龙的这套架构和技术体系已经实现从宏观的解剖结构到生理结构解析与构建,并且可以扩展到分子结构,说明已经具有很强的扩展性,但其中落地的部分还是在解剖结构和生理结构上,分子结构需要相关的专家合作往前推进。
◆ ◆ ◆
九、总结
医学是一个综合的学科,需要众多学科的融合,包括化学、生物、自动化、数学等学科的融合,但仍然会有局限性,因为还有很多未知的部分。例如就遗传基因方面,含有外显子编码序列的遗传基因已经知道10%的部分,但10%当中只有1%可以被认知、挖掘。所以整个行业的机会是很大的,同时存在许多挑战,我们会站在巨人的肩膀上不断探索、不断创新。
速记整理|刘道全
注:本稿件摘自数据观入驻自媒体—大数据文摘与THU数据派(datapi)联合发布,转载请注明来源。微信搜索“数据观”获取更多大数据资讯。
责任编辑:陈卓阳