第9章基因测序——阅读生命天书的技术革命

Section 01

最早的测序方法

在理解了DNA的双螺旋结构和碱基配对原则之后，科学家们面临着一个关键挑战：如何"阅读"DNA分子中数十亿个碱基的排列顺序？这就像面对一本用四个字母（A、T、G、C）写成的天书，每页有数十亿个字符，而你需要把每一个字符都准确记录下来。1977年，两项突破性的技术几乎同时问世，为人类打开了阅读生命密码的大门。

🔬

桑格测序法（Sanger Sequencing）

由英国生物化学家弗雷德里克·桑格（Frederick Sanger）发明，他也因此获得了第二个诺贝尔奖（1980年化学奖）。桑格此前已经因为测定胰岛素的氨基酸序列获得过1958年的诺贝尔奖——他是唯一两度获得诺贝尔化学奖的科学家。这种测序方法的核心思想精妙绝伦：利用DNA复制的天然机制，在合成新链的过程中随机"叫停"，然后通过碎片的大小来推断序列。

桑格测序的学名叫做"链终止法"（chain termination method），它的工作原理堪称分子生物学的经典之作。首先，将待测序的单链DNA作为模板，加入DNA聚合酶、正常的四种脱氧核苷酸（dNTPs），以及少量的双脱氧核苷酸（ddNTPs）。ddNTPs是关键"武器"——它们比普通核苷酸少了3'端的羟基（-OH），一旦被掺入正在延伸的DNA链中，下一个核苷酸就无法与之连接，DNA合成便在此处戛然而止。

在反应体系中，ddNTP的浓度远低于正常dNTP，因此在DNA合成过程中，ddNTP会在各个可能的位置随机掺入，产生一系列长度不同、但都以特定碱基结尾的DNA片段。例如，加入ddATP的反应管中，所有片段都终止于A碱基的位置；加入ddTTP的管中，所有片段终止于T。四种ddNTP分别用不同颜色的荧光染料标记（ddATP绿色、ddTTP红色、ddCTP蓝色、ddGTP黄色），然后将四组反应的产物混合在一起。

桑格测序法（链终止法）流程示意

接下来是关键步骤：毛细管电泳。将反应产物注入极细的毛细管中，在电场作用下，带负电荷的DNA片段按照大小依次迁移——最短的片段跑得最快，最长的片段跑得最慢。当每个片段通过毛细管末端的激光检测器时，其末端的荧光染料被激发发光，检测器记录下颜色信号。通过从短到长依次读取荧光颜色，就能还原出DNA的碱基序列。现代自动化桑格测序仪一次可以读取约800-1000个碱基。

⚗️

马克萨姆-吉尔伯特法：被遗忘的竞争者

几乎与桑格同时，艾伦·马克萨姆和沃尔特·吉尔伯特于1977年发表了"化学裂解法"——利用特定的化学试剂在G、A、G+A、C+T位置分别切断DNA，再通过凝胶电泳分离读序。这种方法不需要DNA聚合酶，但操作复杂、需要使用危险的化学试剂（如肼类化合物），且难以自动化。最终，桑格法凭借更安全、更简单、更易规模化的优势胜出，成为此后近30年间DNA测序的金标准。吉尔伯特和桑格共同分享了1980年诺贝尔化学奖的另一半（另一半授予了保罗·伯格）。

Section 02

人类基因组计划

有了桑格测序这把"钥匙"，科学家们开始酝酿一个雄心勃勃的宏大计划——测定人类基因组的全部30亿个碱基对序列。这就是被誉为"生命科学登月计划"的人类基因组计划（Human Genome Project, HGP）。该计划于1990年正式启动，由美国、英国、法国、德国、日本和中国六国科学家共同参与，预计耗时15年、耗资30亿美元。

公共计划采用的是"分级鸟枪法"（hierarchical shotgun sequencing）：首先将人类基因组打断成约15万个较大的DNA片段（BAC克隆，每个约100-200kb），构建出基因组的物理图谱；然后对每个BAC克隆进一步打碎成小片段，分别进行桑格测序；最后利用计算机算法，根据重叠序列将这些碎片拼接回完整的染色体序列。这种方法虽然稳妥，但速度较慢。

公私之争：1998年，企业家克雷格·文特尔（Craig Venter）创立的塞莱拉基因组公司（Celera Genomics）宣布采用"全基因组鸟枪法"——直接将整个基因组打碎成小片段进行测序，跳过BAC克隆步骤，依靠强大的计算能力进行拼接。文特尔宣称可以在3年内、以3亿美元完成测序，对公共计划形成了巨大的竞争压力。这场竞赛最终促使双方加速推进，并在2000年6月达成"和解"，共同宣布完成人类基因组的"工作草图"。

2001年2月，公共计划和塞莱拉分别在Nature和Science杂志上发表了人类基因组草图序列。2003年4月，在DNA双螺旋结构发表50周年之际，人类基因组计划宣布正式完成。最终的"完成图"覆盖了约99%的常染色质区域，准确率达到99.99%。整个项目实际花费约27亿美元，耗时13年。

然而，人类基因组计划最令人震撼的发现，或许不在于已知的部分，而在于未知。科学家们原本预测人类拥有约10万个蛋白质编码基因，但实际测序结果却令人大跌眼镜：人类只有大约2万个蛋白质编码基因，仅占整个基因组的约1.5%！这意味着，基因组中高达98.5%的DNA序列并不直接编码蛋白质。这些曾经被称为"垃圾DNA"（junk DNA）的区域，实际上包含了大量的调控序列、非编码RNA基因、转座子遗迹和重复序列——它们绝非"垃圾"，而是基因组调控网络的隐秘暗流。这一发现深刻改变了我们对"基因"的定义。

13年

耗时（1990-2003）

$27亿

实际花费

6国

国际合作

99.99%

测序准确率

Section 03

新一代测序技术

人类基因组计划充分暴露出桑格测序的瓶颈：每次只能读取一条DNA片段，速度慢、通量低、成本高。如果要让基因组测序变得像常规实验室操作一样普及，就必须开发全新的技术。于是，21世纪初，一场测序技术的革命悄然降临——新一代测序（Next-Generation Sequencing, NGS）横空出世。

🧪

Illumina 测序：边合成边测序

Illumina公司开发的"边合成边测序"（sequencing by synthesis）是目前应用最广泛的NGS平台。其核心流程为：首先将DNA打断成短片段（约150-300bp），加上接头后固定在流动池（flow cell）的玻璃表面；然后通过"桥式扩增"（bridge amplification），每个DNA片段在原地复制形成约1000个拷贝的"簇"（cluster）；接着加入带有可切割荧光基团和可逆终止子的核苷酸——每掺入一个碱基就发一次光、拍一张照，然后切除荧光基团和终止子，进行下一轮反应。一台仪器可以同时产生数十亿条短序列读数（reads），数据量惊人。

NGS技术的核心优势在于大规模并行。桑格测序一次反应只能读取一条序列，而Illumina平台可以在一块芯片上同时进行数十亿次测序反应。这种"以量取胜"的策略极大地降低了每个碱基的测序成本。人类基因组计划花了30亿美元测定一个基因组，而如今用Illumina平台完成同样的工作，成本已降至不足1000美元，耗时仅需一天左右。成本的骤降使得大规模基因组研究成为可能。

人类全基因组测序成本变化

从30亿美元到不足1000美元 —— 超越摩尔定律的降本速度

2001

$27亿 (HGP)

$2.7B

2004

$1.5亿

$150M

2007

$1000万

$10M

2010

$10万

$100K

2015

$4000

$4,000

2023

$600

<$1,000

NGS的应用范围迅速扩展至生命科学的方方面面。在个性化医疗领域，医生可以通过测序癌症患者的肿瘤基因组，找出驱动突变，选择靶向药物进行精准治疗。在古DNA研究方面，斯万特·帕博（Svante Pääbo）团队利用NGS技术成功测定了尼安德特人和丹尼索瓦人的基因组，揭示了现代人与已灭绝古人类之间的混血历史，帕博因此获得2022年诺贝尔生理学或医学奖。在法医学中，NGS使得从微量降解的犯罪现场样本中获取DNA信息成为可能。

千人基因组计划（1000 Genomes Project）：2008年启动，2015年完成，对来自26个人群的2504个个体进行了全基因组测序，发现了超过8800万个遗传变异位点（SNP），为人类遗传多样性研究奠定了重要基础。此后，英国生物样本库（UK Biobank）对50万人进行了基因组分析，进一步推动了大规模人群基因组学的发展。

Section 04

第三代测序与未来

NGS虽然带来了通量和成本的革命，但它有一个先天性的短板：读长太短。Illumina产生的序列读数通常只有150-300个碱基，这对于拼装复杂基因组、检测大片段的结构性变异来说十分困难——想象一下用200块极小的拼图碎片去拼一幅百万片的大拼图。为了突破这一瓶颈，第三代测序技术应运而生，其核心理念是：直接读取单个DNA分子，获得超长读数。

🔭

PacBio SMRT 测序：实时观测单分子

太平洋生物科学公司（Pacific Biosciences）开发的单分子实时测序（SMRT sequencing）堪称技术奇迹。它将DNA聚合酶固定在极微小的孔穴底部（零模波导孔，ZMW），在孔穴中实时观察聚合酶逐个掺入荧光标记核苷酸的过程。每当一个核苷酸被掺入，就发出一闪荧光，相机记录下颜色信号。由于是连续实时观测，PacBio可以产生平均10-25kb、最长超过100kb的超长读数，极大改善了基因组拼装的连续性和准确性。

💡

Oxford Nanopore：纳米孔测序

牛津纳米孔技术公司（Oxford Nanopore Technologies）的方案更为大胆——完全不需要光学系统。其核心是一个嵌在合成膜上的蛋白质纳米孔（通常由细菌毒素蛋白改造而来）。当DNA分子在电场驱动下穿过这个仅约1纳米宽的孔道时，不同碱基（A、T、G、C）会分别以不同的方式阻碍离子电流，产生特征性的电流变化信号。通过分析这些电流信号的模式，就可以实时读出DNA的碱基序列。

纳米孔测序原理示意

纳米孔技术最令人兴奋的产物是MinION——一个U盘大小的便携式测序仪，重量仅约100克，可以直接插入笔记本电脑的USB接口使用。它不需要庞大的实验室设备，甚至可以在野外、在太空站、在抗疫一线直接使用。2016年，NASA宇航员凯特·鲁宾斯在国际空间站上使用MinION完成了首次在太空中进行的DNA测序。在2014-2016年西非埃博拉疫情期间，MinION被带到疫区，实时测序病毒基因组以追踪传播链。

第三代测序的长读数与NGS的短读数形成了互补关系：长读数像是一份完整的大纲，帮助我们把握基因组的整体框架结构；短读数则像精细的校对员，确保每个碱基的准确性。现代基因组研究越来越倾向于将两者结合使用，以获得最完整的基因组信息。

特征	第一代（桑格）	第二代（Illumina NGS）	第三代（PacBio/Nanopore）
读长	800-1000 bp	150-300 bp	10-100+ kb
通量	低（单条）	极高（数十亿条）	中等（数百万条）
准确率	~99.99%	~99.9%	~95-99%（持续提高中）
测序成本/基因组	数千万美元	<1000美元	1000-5000美元
测序速度	数小时/条	1-2天/基因组	实时（分钟-小时）
是否需要PCR扩增	是	是	否（单分子）
典型应用	验证测序、小片段	全基因组、外显子组	基因组拼装、表观修饰

展望未来，测序技术正在向更加令人惊叹的方向发展。单细胞测序技术让我们能够读取单个细胞的基因组、转录组乃至表观基因组，揭示组织和肿瘤内部的细胞异质性——这对理解癌症进化和大脑神经多样性至关重要。实时测序和体内测序的愿景是让测序设备直接嵌入活体组织中，连续监测基因表达的变化。此外，DNA不仅可以被"读取"，还可以被"写入"——DNA数据存储技术正在探索将数字信息编码到合成的DNA分子中，利用DNA极高的信息密度和数千年的稳定性，作为未来海量数据的存储介质。

🚀

未来展望：从"阅读"到"编写"生命

半个世纪以来，测序技术经历了从手工操作到自动化、从单条序列到数十亿并行、从30亿美元到不足1000美元的惊人蜕变。我们不仅学会了"阅读"生命的密码，更开始理解其中的语法和含义。CRISPR基因编辑技术的出现意味着我们已经可以"修改"这本天书，而合成生物学的进展正在让我们逐步掌握"编写"全新生命序列的能力。从桑格的实验室到纳米孔的U盘测序仪，人类对生命密码的探索，正在从阅读走向书写。

最早的测序方法

人类基因组计划

新一代测序技术

第三代测序与未来

本章目录