火爆的背后，高通量测序面临5大挑战

IT思维 • 8年前扫码分享

文/张利

基因测序作为医疗健康行业的火爆技术，近年来越来越得到临床的认可，并逐步被应用到各大领域中。尤其是精准医疗概念提出以后，基因测序更是备受青睐，它为精准医疗解答了很多未知的问题。

如今，基因测序已经形成了一定的产业规模，大量的企业以不同形式跻身进来。但是，在表面飞速发展的背后，技术上仍有大量的挑战。外媒《GEN》Shawn C. Baker博士撰文讲解该领域面临的困难与挑战，雷锋网(公众号：雷锋网)AIHealth栏目编译如下：

过去十年里，高通量测序技术经历了跨越式的发展，测序能力大幅上升，费用下降，两者的变化都是数量级的。到目前为止，全球范围内，共配备测序设备超过一万台。

过去十几年来，主要的平台公司都致力于提升系统的易用性。Illumina的最新桌面系统，比如 NextSeq、MiSeq、和MiniSeq 系统，均通过试剂盒进行操作，以减少了手工操作的次数和开机时间。

一直以来， Illumina的系统都比赛默飞的 Ion Torrent 系统更加易用，但后者最新的系统Ion S5特别设计简化了整个工作流程，涉及设计准备库到数据生成的整个流程。

行业外读者在听闻了测序行业的许多进展后，如强大的测序能力、更低的成本以及更好的易用性，可能会误认为，基因测序所有的困难已经都解决了，测序过程的所有障碍都移除了。

但是真正的困难还刚开始，大量的挑战在前方。

样品质量

问题最严重的一个领域，也是易被忽略的是：样品质量，虽然测试平台经常会校准，使用的样本也是经过校准的，但是真实世界中的样本经常会面临很多意想不到的挑战。

在人类基因测序中，一个最普遍使用的样本类型是FFPE (formalin-fixed paraffin-embedded)。FFPE的广泛应用有多种原因，其中最重要的是丰富性。据估计，全球范围内，有超过100亿FFPE样本存档。FFPE块的临床样本存储已经变成工业级别的标准实践，其样本数量将继续保持增长。

除全球范围的广泛应用外，FFPE样本通常包含着大量可用的表型信息。例如，FFPE样本可与治疗方法和临床数据综合应用。

但FFPE 样本出现的问题是：固定过程和存储条件均会造成大量的DNA损伤。

BioCule公司CEO、联合创始人 Hans G. Thormar博士认为，

评估了BioCule的QC平台超过1000份样本后，我们看到了DNA样品中大量的变异和各种类型的损伤，例如链间、链内交联，单链DNA的聚合以及单链DNA破坏。

DNA损伤的变异数量和类型，如果忽略，可能会对最终结果产生负面影响。

Thormar认为，

这对下游应用比如测序的影响是巨大的：从简单测序文库构建的失败到虚假文库的产生，最终导致结果的错误。因此，在测序项目开始时正确评估每个样本的质量变得至关重要。

测序文库

尽管，各大测序平台公司花大力气在降低生成原始序列的成本上，但是在构建测序库方面却不然。人类基因测序的测序文库的构建，每个样本大约花费50美元，在总花销中是相对较小的一部分。但是在其他应用中，例如细菌基因组测序或低深度RNA测序，它占据总成本很大一部分。

几个小组研究了多元化自制解决方案，期望可以有效降低成本，但在商业领域并没有太多发展。在开发单细胞测序解决方案中有一个亮点，例如10X Genomics公司的Chromium™系统，利用基于珠的系统可以并行处理数百到数万个样品。

10X Genomics 公司的CEO兼联合创始人Serge Saxonov博士坚持道，

我们认为单细胞RNA测序是进行基因表达分析的正确方式，在接下来的几年，全球许多地区，RNA试验将转向单细胞分辨率，我们的平台有可能在这方面引领浪潮。

对于大型项目，比如在降低样品成本方面，单细胞RNA测序中要求的 高度多元解决方案 将是关键的因素。

长读数与短读数

Illumina对于基因测序市场的主导，意味着到目前为止产生的绝大多数数据都基于 短读数 （short reads，高通量测序平台产生的序列就称为reads，这是测序读到的碱基序列片段，测序的最小单位）。大量短读数的产生对大多数的应用都很适用。例如检测基因组DNA的单核苷酸多态性和计数RNA的转录物。然而，在许多其他的应用中，仅有短读数是不够的，例如阅读基因组的高度重复区域和确定长链结构。

长读数平台，例如Pacific Biosciences公司的RSII和Sequel，Oxford Nanopore的MinION，通常能生成15-20kb范围长度的读数，最高曾报道过超过100kb长度的读数。这样的平台赢得科学界的赞赏，例如加利福尼亚大学戴维斯分校细胞生物学教授Charles Gasser博士。

Gasser博士评论道，

我对于用长读数方法进行基因组装配的成功印象深刻，特别是与短读数高保真数据相结合时的混合装配中。技术的结合使得小群体、小预算的单个研究者从一个新的生物基因组中产生一个可用的组装。

为了充分利用这些长读数平台，有必要通过新方法进行制备DNA样品，标准分子生物学方法尚未优化用来分离超长链DNA片段，所以，在制备长读数库时必须特别小心。

例如，供应商创建了一种高分子量试剂盒用于分离大于100kb的的DNA片段，优化靶向DNA方案来选择性富集DNA的大片段，为了保证长读数产量的最大化，这些方法和技术必须掌握。

短读数的一种特殊形式是链接读数，例如10X Genomics，可作为真正长读数的一种替代方法。链接读数是这样产生的：每个长DNA片段，通常大于100kb，其中产生的每个短读数，均加入一个独一无二的条形码，在分析阶段，这种独特的条形码就可以将分离的短读数链接在一起，从而提供长链基因信息，使得构建大单倍型块和对复杂结构信息的阐释成为可能。

Saxonov博士建议道，