基因测序指通过测序设备分析生物样本(组织、细胞、血液样本等)的 DNA碱基序列信息,并解读这些信息应用于生命调控机制研究、疾病发病机理研究、临床医学诊断、个体化用药指导等领域。
基因测序技术的发展历史,是效率、通量和成本的变革历史,促进了基因测序的普及,对生命科学和医学研究起到重大推动作用,也使得大规模商业化的应用变为可能。从 Sanger 测序法发明以来,基因测序的发展大致历经三个发展阶段:
第一代测序:
1977 年Sanger发明了双脱氧核糖核酸链末端终止法,自上世纪 90 年代起,大量基因测序均采用半自动化毛细管电泳Sanger测序法。
该测序方法的主要步骤和原理如下:
①DNA片段扩增:将碎片化的DNA连接到质粒载体中,跟随质粒进行自我复制;
②循环测序:加入一定比例带有荧光标记的、可以用来中断DNA合成反应的反应物,DNA复制过程中在任一位置都有可能终止,经历大量循环合成后将形成长短不同的、带末端标记的DNA链;
③凝胶电泳:通过凝胶电泳,DNA链将根据长短次序依次排开,利用放射自显影各链末端的荧光标记,实现DNA序列读取。
该技术的突出优势是长度长及高准确性,一次读取 DNA 片段长度可1,000bp,准确率可到 99.99%;但测序通量低,耗时长,成本高,因此应用范围有限。
目前该技术主要用于单基因病多外显子的测序或者少量基因多位点的检测,以及验证高通量测序中出现的阳性结果。
虽然其他测序技术有很大的通量,但基于 Sanger 原理的毛细管电泳测序仍是超高精度测序的金标准,目前其他新发展的测序技术结果都必须应用 Sanger测序技术对其结果进行认证。因此,该测序技术尚未完全被取代。
第二代测序:
第二发展阶段的代表性测序技术主要是高通量测序技术,又称下一代测序技术(即 Next Generation Sequencing, NGS),是目前也是未来较长时间内的主流基因测序技术。
高通量测序技术的核心思想是边合成边测序,即通过捕捉新合成的末端的标记来确定DNA的序列。该测序方法的主要步骤和原理如下:
①建库:DNA碎片化,并添加接头到DNA片段两端;
②桥式扩增并形成 DNA 簇:携带引物的DNA两端固定在测序芯片上,通过桥式 PCR 反应实现 DNA 扩增,以实现信号放大,DNA 在各自的位置解链后形成 DNA 簇,该 DNA 簇内的 DNA 完全相同;
③边合成边测序:反应体系内的 4 种碱基用不同的荧光标记分别标记,DNA 簇中的各 DNA 链同步复制,每延伸一个碱基读取一次信号,实现边合成边测序,且各 DNA 簇同时读取,实现高通量。
高通量测序的不同 DNA 片段固定在同一个基因芯片中同时边合成边测序,因此通量和速度大幅提高;但由于在高通量测序中,单个 DNA 必须扩增成由相同DNA 组成的 DNA 簇,来增强荧光信号强度从而读出 DNA 序列,随着 DNA片段长度增长,在扩增过程中,碱基添加出现错误的概率也随之增加、且基因簇复制的协同性降低,将导致测序质量下降,这严格限制了高通量测序的读长(不超过 500bp)。因此,高通量测序具有通量高、读长短的特点,需要在建库阶段打断 DNA 成为小片段,测序完毕后经由生物信息技术作拼接,因此对实验技术和生物信息技术有较高的要求。
高通量测序大幅降低了测序成本、缩短了测序时间,同时保持了较高的准确性,目前是基因测序主流技术,也是基因测序技术商业化应用普及的主要推动力。以人类基因组测序为例,高通量测序将一人份基因组测序的时间从数年缩短至一周,测序成本由上亿美金降低到数千美金甚至更低。
第三代测序:
不经过扩增的单分子测序和长读长为标志的DNA测序技术被称为第三代测序技术,因其测序时DNA分子无需PCR扩增,实现了对每一条DNA分子的单独测序,也称为单分子测序技术。以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术为代表。
PacBio SMRT技术应用了边合成边测序的思想,并以SMRT芯片为测序载体,芯片上有很多小孔,每个孔中均有DNA聚合酶。测序基本原理是:DNA聚合酶和模板结合,4色荧光标记4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息。SMRT技术的测序速度很快,每秒约数个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错(代价是重复测序,也就是成本会增加)。
Oxford Nanopore Technologies所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术。该技术的关键之一是,设计了一种特殊的纳米孔(只能容纳单分子通过),孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。
第三代基因测序技术的优势:
1)第三代基因测序读长较长,如 Pacific Biosciences 公司的 PACBIO RS II 的平均读长达到 10kb,可以减少生物信息学中的拼接成本,也节省了内存和计算时间。
2)直接对原始DNA样本进行测序,从作用原理上避免了 PCR 扩增带来的出错。
3)拓展了测序技术的应用领域,二代测序技术大部分应用基于DNA,三代测序还有两个应用是二代测序所不具备的:第一个是直接测RNA的序列,RNA的直接测序,将大大降低体外逆转录产生的系统误差。第二个是直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同,根据这个不同的时间,可以判断模板的C是否甲基化。
4)三代测序在ctDNA,单细胞测序中具有很大的优势:ctDNA含量非常低,三代测序技术灵敏度高,能够对于1ng以下做到监测;在单细胞级别:二代测序要把DNA提取出来打碎测序,三代测序直接对原始DNA测序,细胞裂解原位测序,是三代测序的杀手应用。
第三代基因测序技术的劣势:
1)总体上单读长的错误率依然偏高,成为限制其商业应用开展的重要原因;第三代基因测序技术目前的错误率在15%-40%,极大地高于二代测序技术NGS的错误率(低于1%)。不过好在三代的错误是完全随机发生的,可以靠覆盖度来纠错(但这要增加测序成本)。
2)三代测序技术依赖DNA聚合酶的活性。
3)成本较高,二代Illumina的测序成本是每100万个碱基0.05-0.15美元,三代测序成本是每100万个碱基0.33-1.00美元。
4)生信分析软件也不够丰富。
公司地址:尖沙咀海洋中心
邮箱:info@joinlab.vip