金鑫:生命是数字化的,未来要通过大数据基因检测实现精准医疗
2016年4月27日,由清科集团和投资界主办“2016中国医疗健康产业投资峰会”在上海外滩茂悦酒店举行。中国每年近80亿人次的门诊量,催生出一个3万亿的医疗服务市场;随着医疗改革逐步涉入深水区,医疗健康市场释放更多红利;移动医疗、医疗服务、生物技术、 精准医疗 等细分领域衍生出无数投资机遇,这一市场在2020年将增长到6万亿。
在峰会上,华大股份研发中心副总监、BGI Anline&大数据专项负责人金鑫进行了关于“基于大数据的 精准医疗 ”的主题分享,他提到:
1. 生命其实是数字化的。大家知道基因是ATCI ,IT 是0001 ,它们天生都有互通。DNA 的每一步都是大数据,基因检测与生命健康的密切关联。
2. 华大基因数据检测已经有一百万人的数据在数据库里面,针对基因的数据本身,尤其对于基因本身的靶点药物,或者是跟基因相关的筛查、诊疗方案,华大基因针对不同人群的差异尝试做不同维度的检测。
3. 在疾病基因数据的检测和实践方面,华大正在进行有关于肿瘤、乳腺癌等方面的尝试,并逐渐完善精准的数据库来匹配对遗传病相关进行精准检测。
以下为演讲实录:
大家现在都看到的广告牌或者是会议的主题牌,都附有彩色的、螺旋状的图案。它是什么呢?它就是DNA的双螺旋结构,DNA是生命的载体并且和医疗有密切的关系。今天我带来的题目稍微进行了一些改动,是基于大数据的基因检测。
生命其实是数字化的
首先,基因这件事情是怎么开始的? 中国上个世纪作为发展中国家参与到人类基因组计划而成立,整个是耗费 13 年,花费了36 亿美金,这个是产业的开始。 我们要讲跟基因有关的事情,而生命其实是数字化的。大家知道基因是ATCI,IT是0001,它们天生都有互通。从整个基因大数据目前的国际上的生态和形态去看,目前通过人工智能来识别基因的数据还很遥远,所以各个国家提出了大型的基因组计划,在今年3月8号中国科技部也发布了我国的基因医疗的规划。关于DNA,它每一步都是大数据,我们现在才找到了DNA里面很少的一部分,还有很多的东西需要后续挖掘。
基因检测与生命健康的密切关联
现在DNA究竟可以做什么呢?跟我们的健康有什么关系呢?生命的 源泉 ,从一对男女开始。要孕育一个健康的生命,要有健康的基因。比如检查基因,保证生出来的孩子是健康的。现在的工作压力大、环境污染等等,会带来不育的问题。 我们用基因基础可以让他们选择更好的胚胎来孕育。 这里有很多的反复流产的案例,最后导致不育的情况,这个很多也是跟基因有关系的。当然基因不是万能的,它跟环境之间有个很好的互动作用。如果前面都是顺利的,到了育这一块,我们做的一个一个最大的检测,这个检测号称是所有做基因检测公司的主营业务,就是利用NIPT做检测,无创产前基因检测。接下来还有很多检测,包括新生儿基因代谢物检测,一出生五到十分钟就可以检测了,就跟一出生就把他体表数据记录起来一样。随着这个孩子长大了,到了他孕育的时候,又将重复这个过程。然而这个其实还没有完,人在生老病死当中,肿瘤是我们最大的挑战,和基因也有很大关系。
华大基因数据检测战略布局
这里跟大家分享基因检测这件事情并不是离大家很远。就华大而言,我们已经做到了全球百万例。第一例是2011年,到了今年3月我们已经做到一百万,我们希望三年内做到一千万。其实就目前来说,我们自己已经有一百万人的数据在我们的数据库里面了。这个数据对于我们来说可以做什么事情呢?或者它有什么特点呢? 在世界上有三个公司可以宣布自己有百万人的基因数据,其中有一家就是华大, 23andMe ,他们做到了120 万。 我们整个所有检测到的样本在全国的分布是一张热图,颜色深的地区,表示这里检测的人多。可能各个国家的医疗相关的治疗技术、药物完全可以通用的,我觉得这个说法在这里是有它的可靠性的。但是基因的数据本身,尤其对于基因本身的靶点药物,或者是跟基因相关的筛查、诊疗方案,不同人群会有很大的差异。比如中国北方的汉族人跟中国的南方汉族人的基因举例,大于中国南方的汉族人跟日本人的基因举例。
目前,我们覆盖了北方人群、覆盖了56 个民族。关于中国目前的运行年龄的分布,有两个峰,第一个峰是正常的孕育年龄,第二个峰是35 岁。 我们检测是唐氏,它35岁是高危发展时期。另外,华大检测的是母亲的血液,包含大量的母亲的样本,包含5%的胎儿样本,这个有一半是父亲给的。所以当我们抽查了母亲的血液的时候,其实是查了三个人的基因样本。 我们这里的数据跟最大的基因组数据库相要高一个数量级。有了这个数量级之后,我们可以用它和很多的疾病对照。 我们还做了基因关联情况的尝试,位置越高,证明它关联性越强。我们发现有个基因叫ACAN,这个基因跟人类的软骨和中国人的身高都是密切相关的。
关于疾病的基因检测
关于基因检测疾病方面,基因的频率的维度坐标轴是1/1000,这证明我们数据是非常好的对照。所有做遗传疾病的专家,都梦寐以求有这么一个数据库。我家是甘肃的,有高发糖尿病PKU,但是没有人做过究竟哪个基因点导致了这个高发?我们有没有办法在怀孕前就干预它?
另外,这里有两个基因 ,一个是地贫基因,一个是耳聋基因。 我们看到这个耳聋基因的突变,在北方比较高,南方比较低。地贫是南方比较高,北方比较低。这个是有它历史形成的原因的 。这些结果,需要精准的数据库来匹配对遗传病相关进行精准的检测。
还有一个疾病,乳腺癌。在白人的数据库频率方面,突变的位置很高,但是中国人比他们高得多。
通过检测可以发现血液里的肿瘤细胞。 这主要是我们发现有一些孕妇染色体变来变去,这个明显是肿瘤的特性。然后我们跟上海、武汉、深圳的医院追踪,发现有胃癌、有生殖细胞癌,这个就是肿瘤的早筛。其实我们的血液里有各种病毒的、乙肝的、肿瘤的甚至还有HIV的细胞,我们可以把这些数据拿去跟疾控中心匹配。
一百万的基因数据,大概0.5-1TP的数据,怎么传,怎么使用,不是我们一家决定的。我们希望有更多的机构与我们合作。