Chapter 09

基因测序

阅读生命天书的技术革命

⏱️ 约20分钟 🎯 中级
桑格测序 人类基因组 纳米孔测序
31.6亿
人类基因组碱基对
~20,000
蛋白质编码基因
1.5%
编码区占比
$30亿→<$1000
测序成本变化

最早的测序方法

在理解了DNA的双螺旋结构和碱基配对原则之后,科学家们面临着一个关键挑战:如何"阅读"DNA分子中数十亿个碱基的排列顺序?这就像面对一本用四个字母(A、T、G、C)写成的天书,每页有数十亿个字符,而你需要把每一个字符都准确记录下来。1977年,两项突破性的技术几乎同时问世,为人类打开了阅读生命密码的大门。

🔬
桑格测序法(Sanger Sequencing)
由英国生物化学家弗雷德里克·桑格(Frederick Sanger)发明,他也因此获得了第二个诺贝尔奖(1980年化学奖)。桑格此前已经因为测定胰岛素的氨基酸序列获得过1958年的诺贝尔奖——他是唯一两度获得诺贝尔化学奖的科学家。这种测序方法的核心思想精妙绝伦:利用DNA复制的天然机制,在合成新链的过程中随机"叫停",然后通过碎片的大小来推断序列。

桑格测序的学名叫做"链终止法"(chain termination method),它的工作原理堪称分子生物学的经典之作。首先,将待测序的单链DNA作为模板,加入DNA聚合酶、正常的四种脱氧核苷酸(dNTPs),以及少量的双脱氧核苷酸(ddNTPs)。ddNTPs是关键"武器"——它们比普通核苷酸少了3'端的羟基(-OH),一旦被掺入正在延伸的DNA链中,下一个核苷酸就无法与之连接,DNA合成便在此处戛然而止

在反应体系中,ddNTP的浓度远低于正常dNTP,因此在DNA合成过程中,ddNTP会在各个可能的位置随机掺入,产生一系列长度不同、但都以特定碱基结尾的DNA片段。例如,加入ddATP的反应管中,所有片段都终止于A碱基的位置;加入ddTTP的管中,所有片段终止于T。四种ddNTP分别用不同颜色的荧光染料标记(ddATP绿色、ddTTP红色、ddCTP蓝色、ddGTP黄色),然后将四组反应的产物混合在一起。

桑格测序法(链终止法)流程示意
步骤 1 模板DNA + 引物 单链DNA变性解旋 步骤 2 加入反应混合物 DNA聚合酶+dNTPs+ddNTPs 步骤 3 链延伸与随机终止 ddNTP掺入导致链终止 步骤 4 毛细管电泳 按片段大小分离 产生的DNA片段(荧光标记): 模板链 3' T A G C T A G 5' 片段集 A* 最短 A G T* A G T C* A G T C A* ... 以此类推 * 表示荧光标记的ddNTP终止位点 电泳读序(从短到长): 片段长度 → 荧光信号 A T C A G T 读出的序列:A - T - C - A - G - T ...

接下来是关键步骤:毛细管电泳。将反应产物注入极细的毛细管中,在电场作用下,带负电荷的DNA片段按照大小依次迁移——最短的片段跑得最快,最长的片段跑得最慢。当每个片段通过毛细管末端的激光检测器时,其末端的荧光染料被激发发光,检测器记录下颜色信号。通过从短到长依次读取荧光颜色,就能还原出DNA的碱基序列。现代自动化桑格测序仪一次可以读取约800-1000个碱基。

⚗️
马克萨姆-吉尔伯特法:被遗忘的竞争者
几乎与桑格同时,艾伦·马克萨姆和沃尔特·吉尔伯特于1977年发表了"化学裂解法"——利用特定的化学试剂在G、A、G+A、C+T位置分别切断DNA,再通过凝胶电泳分离读序。这种方法不需要DNA聚合酶,但操作复杂、需要使用危险的化学试剂(如肼类化合物),且难以自动化。最终,桑格法凭借更安全、更简单、更易规模化的优势胜出,成为此后近30年间DNA测序的金标准。吉尔伯特和桑格共同分享了1980年诺贝尔化学奖的另一半(另一半授予了保罗·伯格)。

人类基因组计划

有了桑格测序这把"钥匙",科学家们开始酝酿一个雄心勃勃的宏大计划——测定人类基因组的全部30亿个碱基对序列。这就是被誉为"生命科学登月计划"的人类基因组计划(Human Genome Project, HGP)。该计划于1990年正式启动,由美国、英国、法国、德国、日本和中国六国科学家共同参与,预计耗时15年、耗资30亿美元。

公共计划采用的是"分级鸟枪法"(hierarchical shotgun sequencing):首先将人类基因组打断成约15万个较大的DNA片段(BAC克隆,每个约100-200kb),构建出基因组的物理图谱;然后对每个BAC克隆进一步打碎成小片段,分别进行桑格测序;最后利用计算机算法,根据重叠序列将这些碎片拼接回完整的染色体序列。这种方法虽然稳妥,但速度较慢。

公私之争:1998年,企业家克雷格·文特尔(Craig Venter)创立的塞莱拉基因组公司(Celera Genomics)宣布采用"全基因组鸟枪法"——直接将整个基因组打碎成小片段进行测序,跳过BAC克隆步骤,依靠强大的计算能力进行拼接。文特尔宣称可以在3年内、以3亿美元完成测序,对公共计划形成了巨大的竞争压力。这场竞赛最终促使双方加速推进,并在2000年6月达成"和解",共同宣布完成人类基因组的"工作草图"。

2001年2月,公共计划和塞莱拉分别在NatureScience杂志上发表了人类基因组草图序列。2003年4月,在DNA双螺旋结构发表50周年之际,人类基因组计划宣布正式完成。最终的"完成图"覆盖了约99%的常染色质区域,准确率达到99.99%。整个项目实际花费约27亿美元,耗时13年。

然而,人类基因组计划最令人震撼的发现,或许不在于已知的部分,而在于未知。科学家们原本预测人类拥有约10万个蛋白质编码基因,但实际测序结果却令人大跌眼镜:人类只有大约2万个蛋白质编码基因,仅占整个基因组的约1.5%!这意味着,基因组中高达98.5%的DNA序列并不直接编码蛋白质。这些曾经被称为"垃圾DNA"(junk DNA)的区域,实际上包含了大量的调控序列、非编码RNA基因、转座子遗迹和重复序列——它们绝非"垃圾",而是基因组调控网络的隐秘暗流。这一发现深刻改变了我们对"基因"的定义。

13年
耗时(1990-2003)
$27亿
实际花费
6国
国际合作
99.99%
测序准确率

新一代测序技术

人类基因组计划充分暴露出桑格测序的瓶颈:每次只能读取一条DNA片段,速度慢、通量低、成本高。如果要让基因组测序变得像常规实验室操作一样普及,就必须开发全新的技术。于是,21世纪初,一场测序技术的革命悄然降临——新一代测序(Next-Generation Sequencing, NGS)横空出世。

🧪
Illumina 测序:边合成边测序
Illumina公司开发的"边合成边测序"(sequencing by synthesis)是目前应用最广泛的NGS平台。其核心流程为:首先将DNA打断成短片段(约150-300bp),加上接头后固定在流动池(flow cell)的玻璃表面;然后通过"桥式扩增"(bridge amplification),每个DNA片段在原地复制形成约1000个拷贝的"簇"(cluster);接着加入带有可切割荧光基团和可逆终止子的核苷酸——每掺入一个碱基就发一次光、拍一张照,然后切除荧光基团和终止子,进行下一轮反应。一台仪器可以同时产生数十亿条短序列读数(reads),数据量惊人。

NGS技术的核心优势在于大规模并行。桑格测序一次反应只能读取一条序列,而Illumina平台可以在一块芯片上同时进行数十亿次测序反应。这种"以量取胜"的策略极大地降低了每个碱基的测序成本。人类基因组计划花了30亿美元测定一个基因组,而如今用Illumina平台完成同样的工作,成本已降至不足1000美元,耗时仅需一天左右。成本的骤降使得大规模基因组研究成为可能。

人类全基因组测序成本变化
从30亿美元到不足1000美元 —— 超越摩尔定律的降本速度
2001
$27亿 (HGP)
$2.7B
2004
$1.5亿
$150M
2007
$1000万
$10M
2010
$10万
$100K
2015
$4000
$4,000
2023
$600
<$1,000

NGS的应用范围迅速扩展至生命科学的方方面面。在个性化医疗领域,医生可以通过测序癌症患者的肿瘤基因组,找出驱动突变,选择靶向药物进行精准治疗。在古DNA研究方面,斯万特·帕博(Svante Pääbo)团队利用NGS技术成功测定了尼安德特人和丹尼索瓦人的基因组,揭示了现代人与已灭绝古人类之间的混血历史,帕博因此获得2022年诺贝尔生理学或医学奖。在法医学中,NGS使得从微量降解的犯罪现场样本中获取DNA信息成为可能。

千人基因组计划(1000 Genomes Project):2008年启动,2015年完成,对来自26个人群的2504个个体进行了全基因组测序,发现了超过8800万个遗传变异位点(SNP),为人类遗传多样性研究奠定了重要基础。此后,英国生物样本库(UK Biobank)对50万人进行了基因组分析,进一步推动了大规模人群基因组学的发展。

第三代测序与未来

NGS虽然带来了通量和成本的革命,但它有一个先天性的短板:读长太短。Illumina产生的序列读数通常只有150-300个碱基,这对于拼装复杂基因组、检测大片段的结构性变异来说十分困难——想象一下用200块极小的拼图碎片去拼一幅百万片的大拼图。为了突破这一瓶颈,第三代测序技术应运而生,其核心理念是:直接读取单个DNA分子,获得超长读数

🔭
PacBio SMRT 测序:实时观测单分子
太平洋生物科学公司(Pacific Biosciences)开发的单分子实时测序(SMRT sequencing)堪称技术奇迹。它将DNA聚合酶固定在极微小的孔穴底部(零模波导孔,ZMW),在孔穴中实时观察聚合酶逐个掺入荧光标记核苷酸的过程。每当一个核苷酸被掺入,就发出一闪荧光,相机记录下颜色信号。由于是连续实时观测,PacBio可以产生平均10-25kb、最长超过100kb的超长读数,极大改善了基因组拼装的连续性和准确性。
💡
Oxford Nanopore:纳米孔测序
牛津纳米孔技术公司(Oxford Nanopore Technologies)的方案更为大胆——完全不需要光学系统。其核心是一个嵌在合成膜上的蛋白质纳米孔(通常由细菌毒素蛋白改造而来)。当DNA分子在电场驱动下穿过这个仅约1纳米宽的孔道时,不同碱基(A、T、G、C)会分别以不同的方式阻碍离子电流,产生特征性的电流变化信号。通过分析这些电流信号的模式,就可以实时读出DNA的碱基序列。
纳米孔测序原理示意
上方电解液 (cis) 下方电解液 (trans) + - 电场方向 ↓ 合成膜 蛋白质纳米孔 A T G 离子流 受阻 电流信号输出 A T G C A 不同碱基 → 不同电流水平

纳米孔技术最令人兴奋的产物是MinION——一个U盘大小的便携式测序仪,重量仅约100克,可以直接插入笔记本电脑的USB接口使用。它不需要庞大的实验室设备,甚至可以在野外、在太空站、在抗疫一线直接使用。2016年,NASA宇航员凯特·鲁宾斯在国际空间站上使用MinION完成了首次在太空中进行的DNA测序。在2014-2016年西非埃博拉疫情期间,MinION被带到疫区,实时测序病毒基因组以追踪传播链。

第三代测序的长读数与NGS的短读数形成了互补关系:长读数像是一份完整的大纲,帮助我们把握基因组的整体框架结构;短读数则像精细的校对员,确保每个碱基的准确性。现代基因组研究越来越倾向于将两者结合使用,以获得最完整的基因组信息。

特征 第一代(桑格) 第二代(Illumina NGS) 第三代(PacBio/Nanopore)
读长 800-1000 bp 150-300 bp 10-100+ kb
通量 低(单条) 极高(数十亿条) 中等(数百万条)
准确率 ~99.99% ~99.9% ~95-99%(持续提高中)
测序成本/基因组 数千万美元 <1000美元 1000-5000美元
测序速度 数小时/条 1-2天/基因组 实时(分钟-小时)
是否需要PCR扩增 否(单分子)
典型应用 验证测序、小片段 全基因组、外显子组 基因组拼装、表观修饰

展望未来,测序技术正在向更加令人惊叹的方向发展。单细胞测序技术让我们能够读取单个细胞的基因组、转录组乃至表观基因组,揭示组织和肿瘤内部的细胞异质性——这对理解癌症进化和大脑神经多样性至关重要。实时测序体内测序的愿景是让测序设备直接嵌入活体组织中,连续监测基因表达的变化。此外,DNA不仅可以被"读取",还可以被"写入"——DNA数据存储技术正在探索将数字信息编码到合成的DNA分子中,利用DNA极高的信息密度和数千年的稳定性,作为未来海量数据的存储介质。

🚀
未来展望:从"阅读"到"编写"生命
半个世纪以来,测序技术经历了从手工操作到自动化、从单条序列到数十亿并行、从30亿美元到不足1000美元的惊人蜕变。我们不仅学会了"阅读"生命的密码,更开始理解其中的语法和含义。CRISPR基因编辑技术的出现意味着我们已经可以"修改"这本天书,而合成生物学的进展正在让我们逐步掌握"编写"全新生命序列的能力。从桑格的实验室到纳米孔的U盘测序仪,人类对生命密码的探索,正在从阅读走向书写。
~100bp
桑格读长上限
100kb+
纳米孔最长读长
~100g
MinION 重量
<$1000
当前基因组测序成本
50年
测序技术发展史

本章目录

01 最早的测序方法 02 人类基因组计划 03 新一代测序技术 04 第三代测序与未来
翻页   T 目录