贵州华大生命大数据研究院执行院长金鑫:基因大数据价值与未来
7月29日,以“赋能实体经济,推动产业创新——大数据与实体经济融合发展”为主题的2020“数博对话”活动成功举办。贵州华大生命大数据研究院执行院长金鑫在本期对话活动中以《基因大数据价值与未来》为主题进行了分享。
基因信息与生老病死密切相关
金鑫认为,一方面,人是数据的生产者,生活中不管是打车、买东西,还是其他活动,无时无刻都在产生数据。另一方面,每个人也是信息的载体,这个信息就是构成生命最基本的基因。基因存在于每个细胞里,这是跟每个人都密切相关的东西,但在过去很多年里,它是数字化程度比较低的一种数据类型。
我们每个人都是基因信息的载体,这个载体是承载在细胞里。金鑫介绍:“我们身体里会有多少细胞?有人做过测算,细胞的数量在50万亿个,如果把我们身体里的细胞平铺的话,它可以覆盖1600米的沙滩。每个细胞里有多少DNA?人的基因组序列的长度大约是30亿个碱基。地球到太阳之间的距离是一个天文单位,如果把人体里所有细胞的基因序列连起来的话,它的长度通过计算大约是300多个这样的单位,远远超过了目前的旅行者1号(1977年发出的飞行器,到现在也没飞到),这里面的信息量可想而知。”
更多的数据带来更多的发现。金鑫进一步谈到,每个人都有重大的信息量,这些信息跟我们的生老病死是密切相关的,尤其是跟我们密切相关的健康疾病因素,有遗传的基础、健康的基础等。如果我们知道了未来多长时间内有多大的概率会得某种病,那就可以治疗或者是防控,或者在早期能发现它也可以进行合理干预,比如“三高”的控制等。同时,在这个过程中,需要大数据去回答问题和消除不确定性,因为如果只研究一个人的信息量,这是不匹配的,如果把他的原始数据估出来,一个人的数据在今天至少要达到100G,这个人已经被确诊为糖尿病或者没有,这是在海量数据中海底捞针。但如果有很多人的数据,百万量级的层级里面就能建立联系。
上图是人类将近20年以来所发现的跟各种各样人类疾病有关系的基因位置和区域。金鑫介绍,这张图上,人类1号染色体一直到22号,还有性染色体,图上每一个圆圈就代表了一种疾病或者我们所关心的人体的表型。正因为基因跟几乎任何的疾病都有关系,所以非常希望能更进一步地了解它们深入的联系。
基因大数据时代来临
金鑫表示,基因组是非常庞大的序列组合,有时候会发生更复杂的变化,比如有一段少了,有一段增加了,有一段换了位置,有一段贴到了别的地方......这就使现在的技术逐步地去研究它跟疾病之间的关系。在这个背景下,各个国家都发现了这中间蕴含的巨大的价值和可能性,如果我们把生命本身解码,把它跟更多的数据连接起来,更多的价值就能连接起来。这个过程中,希望能够通过大量的数字化,生命的大数据就能产生,去解决怎样拓宽信息和数据来源的问题。
在过去这些年,每一个人的数据是单独来看,它的价值是没有得到释放的,所以在这中间有很多关于科学伦理的讨论,但现在这个价值正在逐步得到显现。
责任编辑:姚治