大数据精准医疗解读遗传密码 未来医疗健康的变革
【搜狐科技无穷报道 文/周正成】
11 月1 日-2 日搜狐科技参与了在南京举办的首届中国智谷大会。 人工智能产业迅猛发展,智能化技术日新月异,将对我们的生产和生活方式带来革命性的变化,智谷大会围绕人工智能,智能制造领域的专家学者、领先机构、创新企业,产业集群和亟待转型的传统企业提供一个全面的对接平台。
人类医学随着人类基因组计划的完成,正在跨越如一个新的时代。“互联网+精准医疗大数据”应该是今年我们医疗行业最火的组合。接连不断的医学突破和金融投资引领者一个全新的医疗健康时代。
不仅仅是大众的关注,从2015年国际上在讨论精准医学以来,在很多发达国家包括我们国家都对此高度重视,并投入重金用于相关的项目研发。因为“精准医疗”不仅仅关乎个体健康,而是全人类医疗本质上飞跃式的进步。那就精准医疗,在智谷大会上,中国科学院院士、中科院生物物理所研究院陈润生博士为我们做了很好的讲解。(以下内容由无穷编辑结合陈院长的演讲)
图1:陈润生院士发表演讲
精准医疗的核心是组学大数据和医学的结合
精准医疗,顾名思义,每个病人都是独一无二的就如同我们的基因,如果我们将个体的遗传密码与癌症进行匹配,并作出精准的判断,从而能更精确地用药治疗,将会对我们治疗疾病的方式有极大的改善。它的核心就是一点,是 组学大数据跟医学的结合 。
组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。那么这里,包括两层含义,分别是:
-组学大数据:包含组学和大数据
-医学
近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是以前前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多的积累了以遗传密码 为代表的不仅仅是基因的信息,也包括蛋白的信息,而挖掘这些信息以后会得到很多的反映人类健康和疾病的信息。所以如果把这些信息应用到临床当中来,一定会提高临床的效果,这就是所谓精准医学的本质含义。
但是,只获得这些遗传密码的信息是不够的,所有遗传密码的信息都是非常非常多的一个大数据,这个大数据是很容易测得的。在中国,每个人花一万块人民币就可以得到你的遗传密码,但是你得到你的遗传密码你是一点都不懂,因为这只有四个字,所以要读懂他,就要发展大数据分析的理论方法和技术。那么要把这些组学数据用大临床当中来,必须是组学数据和大数据分析方法的结合。所以一部分是组学大数据,一部分是医学,两个结合起来,就构成了现在精准医学的本质和核心:组学大数据在临床医学当中的应用。
医疗健康的变革从诊断治疗转变成健康保证
现在的医疗体系面对的是病人,主要是对病人进行所谓的治疗,但是,未来因为精准医学的发展,由于组学大数据的介入,那么就会使得这个时候的健康不仅仅是对病人,而是对全民,对任何人在他没有得病的时候我们测量他的组学数据,分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预。这样会抑制疾病的发展,从而减轻它的程度,这样就把整个医疗健康体系的关口前移。治胃病在没有病之前就提出评估与保证,这样一个根本性的概念的转变。
精准医疗促使新兴产业的出现
精准医学带来的本性概念的改变由此促使的产业的发展早已引起了各国领导人的注意。很多国家不管精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点,美国在精准医学的发展,大家知道美国要测量100万自然人的遗传密码。欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。
图2:奥巴马宣布启动精准医疗的大型研究项目
精准医学可能在四个方面促使产业的变革和发展:
第一:促使海量的生物样本库和数据库的发展。
第二:海量数据的挖掘。
第三:分子诊断和药物设计靶点的相关产业。
第四:由精准医学概念而产生的新的医疗设施。
第一个产业:促使海量的生物样本库和数据库的发展。由于精准医学的推动,那么需要测量百万人量级的这些人的组学信息,首先涉及到这百万人生物样品的获取,保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本测完了数据是百万人数量级的一定要促进相应的大规模的数据库的发展,有人估计,这个产业的规模可能是百亿数量级。
第二个产业:海量数据的挖掘。 有了这些样品,那么就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转入组,这些测序的数据,仅仅到2018年,就可以到117亿美金的规模。那么有了样本库,有了组学数据的测量,那么下一步在这些海量数据挖掘的基础上,就可以促进产生大量的新的分子诊断的指标。这就会增加很多跟疾病相关的信息,这些信息当中,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业:所谓分子诊断和药物设计靶点的相关产业。
第四个产业是伴随着精准医学概念而产生的新的医疗设施。比如说要成立一些健康源,要一些健康师,这些方面是可以和现在医院、医生相关系的产业大概是千亿数量,这些产业必然会带来变革,国内已经有所体现,有成百上千个小的公司在逐渐地成立了。
大数据分析、人工智能是精准医疗的基础
精准医学至少要具备两个条件,第一个,要具备组学大数据的基础。精准医学就是把组大数据用到临床当中来,所以第一个要获取组学大数据,那么也就是获取基因组,蛋白组、转入组、代谢组等等这些组学数据。这些数据本身是没有用的,第二步就是组学数据的挖掘,挖掘的话就会用到大数据分析的理论方法,包括人工智能的方法,深度学习的方法等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。
有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面。有了这两个基础就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合。
精准医疗刚刚启程,97%的基因密码人类无法解读
在我们的临床密码当中,组学当中,还存在着大量的暗信息。我们的临床密码花一万块钱可以测得自己的遗传密码,但是目前能够分析从规律上的只有一小部分,这就是基因组当中的所谓暗信息。这是一段人的遗传密码,我们每个人都有。那么像这样的遗传密码,很多重要的地方是影响整个人的生命功能的。我们一个人是3-10个九次方,如果你花一万块钱很容易测一床密码,如果转定成册子,每3千个量一页,100页一册。如果你把自己的临床密码写成书,是一万册,每页3千字符。可是这个密码我们现在还无法读懂,如果一万册书每一页一厘米,我们自己的书就是一万厘米,就是一百米,堆起来有地面上排到四十层楼房那么高。就算集全世界科学家的智慧,包括生物医学家的智慧,从规律上了解的部分只有这遗传密码的3%,另外的97%实际上集目前全世界的智慧还无法解读。
首先从遗传密码来讲,那3% 是遵从中心发展的蛋白质信息,就是造蛋白质的遗传密码。但另外的97%的遗传密码是跟制造蛋白组无关的,这些信息,迄今为止我们不知道他做什么用的,这就是遗传密码当中的所谓暗物质,也是遗传密码当中的非编码序列。在而、97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很大的距离。
举一个大细胞的圆细胞生物基因组的例子,这是个连个细胞核都没有的简单细胞,它的85%基因都是用来编码蛋白的。所以对一个非常低等的生物,如果测完他的遗传密码, 85-90%你就知道他是如何生活,基本造哪些蛋白就知道。但是生物高等一点,例如酵母,这个是单细胞的真核生物,编码蛋白质的比例减少到70%了,而非编码的部分增加到28%。再是到多细胞生物,例如最简单的仙童(音),这时候编码蛋白质的部分减少到28%,非编码的部分增加到71%。下面是果蝇,也只是昆虫了,非编码的部分增加到82%,而97-98%都是非编码序列。这样一个比较基因组的进化逻辑告诉我们,生物从简单到复杂,从低等到高等,增加的是迄今为止我总体上还不知道规律的非编码序列,这将是对、精准也好,对基础生物学也是巨大挑战。 而这些未知的暗物质,都需要我们通过巨大的数据去发现规律,从而做出判断。
精准医疗将为技术科研和产业发展带来新的挑战
精准医学对技术研究和产业发展都提供了研究方向。其对非编码的研究无疑会对疾病的诊断治疗提供全新的诊断方向,对药物的设计研发提供新的平台;对新的物种,新的性状的培育提供一个新的基础。而精准医疗和大数据的结合,存在着核心的挑战,第一是数据量大,导致需要巨额的资金去做这件事。在的测序仪一个普通的一次运行就可以到1T的数据,全世界有成千上万个这样的仪器,包括我的组里就有所谓的得到一个T的数据,所以这些数据量是非常大的。那么每个人有3×10个九次方,测他的基因组,就需要用100万美金。用一万美金就可以同样得到自己的遗传密码。但是从数据质量来讲,他的噪音很高,同时又大量缺失值的这样一个数据源。第二个样本很小,我们要解决肿瘤的问题,但是我们知道肿瘤的变量,自变量可能成前上万,但是取样本只有百数量级。这其实也涉及到数据量大的问题,因此第二是我们需要建立合适的数学模型,使得我们能够相匹配。这将不仅仅是具体基因的问题,还牵涉到网络、生物学数据。所以跨领域的人才,科学界、IT界的精英需要共同加入到这项事业当中。而资金方向,更需要投资家、企业家以及政府的支持。期待不久的将来,我们的健康将完全可以掌握在自己的手中,彻底变革医疗系统!
【无穷】我们在“无边世界”里发现“无穷创意”
无穷是搜狐科技主办的知识分享平台,我们将邀请知名企业家,科学家,社会名人分享对科技与社会的探索与思考。