国家基因库正式“开张”华大基因研究院负责运营
(原标题:国家基因库正式“开张”,华大基因研究院负责运营)
9月22日,深圳国家基因库正式开始运营。这是继NCBI(美国国家生物技术信息中心)、DDBJ(日本基因数据库)和EBI(欧洲生物信息研究所)之后,全球第四个建成的国家级基因数据库。
国家基因库号称生命科学的国库,是生命科学时代已引起全球高度重视的战略资源,在人类健康、生物多样性方面都有极为重要的作用。比如已被中美等过提上国家战略高度的精准医疗计划,基因资源的获得和解析就是这一计划得以实现的基础;或者是罕见病的诊断,可以从基因数据上实现集中管理和追本溯源。
相比欧美,中国的国家基因库建设启动较晚。2011年10月深圳国家基因库建设方案由国家发展改革委、财政部、工业和信息化部以及卫生部四部委批复,运用PPP模式,由深圳华大基因研究院组建及运营。
华大基因成立于1999年9月9日,2000年代表中国与美国、英国、德国、日本、法国共同承担完成人类基因组绘制计划。2015年年底,华大基因旗下的华大股份披露IPO冲刺创业板,华大股份由华大医学和华大科技合并而成。
国家基因库执行主任徐讯对媒体表示:“国家基因库是完全独立的,虽然由华大团队建设和管理,但与我们的商业版块是物理隔离的。基因库会提供对外公共服务统一的政策和规则,产业机构包括华大都必须按照规则使用这个公共平台。”
国家基因库分两期建设,即将开幕的是一期,工程投资7.8亿元,建筑面积4.75万平方米,目前基因信息数据总量达60PB,生物样本存储能力1000万份。在一期7.8亿的工程投资款中,华大基因配套投资了3.6亿。
徐讯表示,目前国家基因库一期样品的整体存储能力大概在3000万份,到二期会扩展到3亿份样品的存储能力。但如果让每一个中国人都有基因样本存储,至少需要达到100亿样本存储的规模。
国家基因库一期工程主要是 “三库两平台”建设,即基因信息数据库(干库)、生物样本资源库(湿库)、生物活体库(活库)、数字化平台、基因编辑平台。
目标是逐步实现对生物资源的存、读、懂、写、用,促进国家基因库向国际基因库的转变;并根据国家和社会的重大需求,如健康、疾病、农业及环境等,开展研发工作,继续提供公共产品和服务;同时,希望成为国家级平台和联盟组织者、“召集人”的角色,以汇聚更多的社会资源投入到基因资源的储备和开发利用。
目前,国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系,在人类健康、生物多样性、生物进化机制等方面开展合作研究。
国家基因库设有理事会,由国家发改委、财政部、工信部、卫计委四部委牵头,深圳市政府共同参与。国家基因库主任由华大农业集团董事长兼总裁梅永红担任。加盟华大前,梅永红曾担任山东济宁市委副书记、市长,并先后在国家农业部、科技部任职。
国家基因库生命伦理委员会是国家基因库负责生命科学伦理审查、管理、指导与咨询工作的常设机构。它由来自伦理学、法学、社会学、生物学、医学等多学科专家和社会人士共同组成。其宗旨是通过伦理审查与管理、确保利益相关者的尊严、安全和权益得到保护,并为联盟成员或其他单位及个人提供伦理指导与咨询,增强公众对国家基因库工作的信任和支持,使其有效的服务于人类社会。
此外,国家基因库数据中心还推出了一个综合数据库―GE MAP。该数据库整合了来自18个国家的27个不同人种的基因组数据;并收录了6个权威数据库数据,包括38,659个基因和上亿条突变数据。下一步,该数据库将分4个层次完善数据信息:
1)基因;2)表型与基因型关系;3)表型与疾病关系;4)干预与治疗,以及药物基因组学数据。
开放后,GE MAP可提供数据检索功能。未来,GE MAP将整合疾病知识库,用户可通过疾病检索表型数据,或通过基因检索相关疾病等;此外,GE MAP将创建个人数据分析工作站,届时,用户可上传个人测序数据,并获得个人基因组数据分析结果。GE MAP不仅为科研工作者、医疗从业者提供海量数据支持,且将为大众提供操作简易的个人基因组分析工具和平台,充分满足大众的需求。
附国家基因数据库中不同类型数据库情况:
Cancer Database(癌症数据库)
癌症数据库收集了25种癌症数据,近3000份样本数据,近5万条变异信息等。从疾病、基因、突变、捐赠者等多个维度可视化的展示癌症数据,全面、系统、分层次的展示癌症与基因之间的关系。并且应用具有疾病类数据库特点的生命时间轴来展示癌症样本和数据。并对数据库中的癌症数据进行平行比较、交叉和统计分析,揭示癌症与基因和变异的关系。
出生缺陷数据库
出生缺陷数据库汇集了染色体、单基因病等出生缺陷遗传疾病信息和大量的病例资料,包含341种出生缺陷疾病信息,1195份样本数据,相关基因898个。用户可以便捷的检索到相关的出生缺陷疾病信息及同种疾病其他患者的可公开信息,如检测方法,治疗效果和疾病预后等情况。
GEMAP(人类基因组数据库)
数据库收集了来自18个国家的27不同人种的基因组数据,以及来自6个权威数据库数据,38,659个基因、上亿条突变数据和地域信息等,并将其可视化的直观展现。数据库还提供个人基因组数据可视化比较分析,类似google地图一样,用户可方便、快捷、准确、全局或局部直观的搜索和展示个人基因组数据的变异信息以及与其他人种基因组数据的比较信息。
1KITE Database(1000种昆虫数据库)
1KITE数据库是基于“千种昆虫转录组进化”项目数据建立的生物信息数据库,该数据库设计理念是将物种、样本、基因、数据、文献等生物数据元素在底层设计成网状结构,在每种数据元素中都会链接到并可以快速检索到其他数据元素的信息,形成数据查询和检索的闭环。
BLAST4OneKP(千种植物数据库)
千种植物数据库是基于千种植物(OneKP项目)转录组项目数据建立的生物数据库,用户可以方便的通过植物物种树查询和浏览千种植物信息,该数据库还构建了在线Blast平台,提供在线Blast服务。
B10K(鸟类数据库)
目前该数据库收集整理了48只鸟类物种的基因组测序、组装和全基因组比较分析数据,囊括了现代鸟类的主要分枝。基于全基因组数据构建了有史以来最高可信度鸟类分子演化树,前所未有的解决了对早期鸟类演化关系历史争论;并描述了鸟类基因组演化的历程,从基因组的角度阐述了鸟类宏观演化的重要特征。
谷子数据库
谷子数据库是基于深圳华大基因研究院和张家口市农业科学院等单位谷子基因组研究项目数据设计,该数据库创新的将谷子的表型和基因型贯穿起来,通过谷子的表型信息可以查询和检索谷子的基因型信息,通过基因型可以查到对应的表型信息。