最早的测序方法
在理解了DNA的双螺旋结构和碱基配对原则之后,科学家们面临着一个关键挑战:如何"阅读"DNA分子中数十亿个碱基的排列顺序?这就像面对一本用四个字母(A、T、G、C)写成的天书,每页有数十亿个字符,而你需要把每一个字符都准确记录下来。1977年,两项突破性的技术几乎同时问世,为人类打开了阅读生命密码的大门。
桑格测序的学名叫做"链终止法"(chain termination method),它的工作原理堪称分子生物学的经典之作。首先,将待测序的单链DNA作为模板,加入DNA聚合酶、正常的四种脱氧核苷酸(dNTPs),以及少量的双脱氧核苷酸(ddNTPs)。ddNTPs是关键"武器"——它们比普通核苷酸少了3'端的羟基(-OH),一旦被掺入正在延伸的DNA链中,下一个核苷酸就无法与之连接,DNA合成便在此处戛然而止。
在反应体系中,ddNTP的浓度远低于正常dNTP,因此在DNA合成过程中,ddNTP会在各个可能的位置随机掺入,产生一系列长度不同、但都以特定碱基结尾的DNA片段。例如,加入ddATP的反应管中,所有片段都终止于A碱基的位置;加入ddTTP的管中,所有片段终止于T。四种ddNTP分别用不同颜色的荧光染料标记(ddATP绿色、ddTTP红色、ddCTP蓝色、ddGTP黄色),然后将四组反应的产物混合在一起。
接下来是关键步骤:毛细管电泳。将反应产物注入极细的毛细管中,在电场作用下,带负电荷的DNA片段按照大小依次迁移——最短的片段跑得最快,最长的片段跑得最慢。当每个片段通过毛细管末端的激光检测器时,其末端的荧光染料被激发发光,检测器记录下颜色信号。通过从短到长依次读取荧光颜色,就能还原出DNA的碱基序列。现代自动化桑格测序仪一次可以读取约800-1000个碱基。
人类基因组计划
有了桑格测序这把"钥匙",科学家们开始酝酿一个雄心勃勃的宏大计划——测定人类基因组的全部30亿个碱基对序列。这就是被誉为"生命科学登月计划"的人类基因组计划(Human Genome Project, HGP)。该计划于1990年正式启动,由美国、英国、法国、德国、日本和中国六国科学家共同参与,预计耗时15年、耗资30亿美元。
公共计划采用的是"分级鸟枪法"(hierarchical shotgun sequencing):首先将人类基因组打断成约15万个较大的DNA片段(BAC克隆,每个约100-200kb),构建出基因组的物理图谱;然后对每个BAC克隆进一步打碎成小片段,分别进行桑格测序;最后利用计算机算法,根据重叠序列将这些碎片拼接回完整的染色体序列。这种方法虽然稳妥,但速度较慢。
公私之争:1998年,企业家克雷格·文特尔(Craig Venter)创立的塞莱拉基因组公司(Celera Genomics)宣布采用"全基因组鸟枪法"——直接将整个基因组打碎成小片段进行测序,跳过BAC克隆步骤,依靠强大的计算能力进行拼接。文特尔宣称可以在3年内、以3亿美元完成测序,对公共计划形成了巨大的竞争压力。这场竞赛最终促使双方加速推进,并在2000年6月达成"和解",共同宣布完成人类基因组的"工作草图"。
2001年2月,公共计划和塞莱拉分别在Nature和Science杂志上发表了人类基因组草图序列。2003年4月,在DNA双螺旋结构发表50周年之际,人类基因组计划宣布正式完成。最终的"完成图"覆盖了约99%的常染色质区域,准确率达到99.99%。整个项目实际花费约27亿美元,耗时13年。
然而,人类基因组计划最令人震撼的发现,或许不在于已知的部分,而在于未知。科学家们原本预测人类拥有约10万个蛋白质编码基因,但实际测序结果却令人大跌眼镜:人类只有大约2万个蛋白质编码基因,仅占整个基因组的约1.5%!这意味着,基因组中高达98.5%的DNA序列并不直接编码蛋白质。这些曾经被称为"垃圾DNA"(junk DNA)的区域,实际上包含了大量的调控序列、非编码RNA基因、转座子遗迹和重复序列——它们绝非"垃圾",而是基因组调控网络的隐秘暗流。这一发现深刻改变了我们对"基因"的定义。
新一代测序技术
人类基因组计划充分暴露出桑格测序的瓶颈:每次只能读取一条DNA片段,速度慢、通量低、成本高。如果要让基因组测序变得像常规实验室操作一样普及,就必须开发全新的技术。于是,21世纪初,一场测序技术的革命悄然降临——新一代测序(Next-Generation Sequencing, NGS)横空出世。
NGS技术的核心优势在于大规模并行。桑格测序一次反应只能读取一条序列,而Illumina平台可以在一块芯片上同时进行数十亿次测序反应。这种"以量取胜"的策略极大地降低了每个碱基的测序成本。人类基因组计划花了30亿美元测定一个基因组,而如今用Illumina平台完成同样的工作,成本已降至不足1000美元,耗时仅需一天左右。成本的骤降使得大规模基因组研究成为可能。
NGS的应用范围迅速扩展至生命科学的方方面面。在个性化医疗领域,医生可以通过测序癌症患者的肿瘤基因组,找出驱动突变,选择靶向药物进行精准治疗。在古DNA研究方面,斯万特·帕博(Svante Pääbo)团队利用NGS技术成功测定了尼安德特人和丹尼索瓦人的基因组,揭示了现代人与已灭绝古人类之间的混血历史,帕博因此获得2022年诺贝尔生理学或医学奖。在法医学中,NGS使得从微量降解的犯罪现场样本中获取DNA信息成为可能。
千人基因组计划(1000 Genomes Project):2008年启动,2015年完成,对来自26个人群的2504个个体进行了全基因组测序,发现了超过8800万个遗传变异位点(SNP),为人类遗传多样性研究奠定了重要基础。此后,英国生物样本库(UK Biobank)对50万人进行了基因组分析,进一步推动了大规模人群基因组学的发展。
第三代测序与未来
NGS虽然带来了通量和成本的革命,但它有一个先天性的短板:读长太短。Illumina产生的序列读数通常只有150-300个碱基,这对于拼装复杂基因组、检测大片段的结构性变异来说十分困难——想象一下用200块极小的拼图碎片去拼一幅百万片的大拼图。为了突破这一瓶颈,第三代测序技术应运而生,其核心理念是:直接读取单个DNA分子,获得超长读数。
纳米孔技术最令人兴奋的产物是MinION——一个U盘大小的便携式测序仪,重量仅约100克,可以直接插入笔记本电脑的USB接口使用。它不需要庞大的实验室设备,甚至可以在野外、在太空站、在抗疫一线直接使用。2016年,NASA宇航员凯特·鲁宾斯在国际空间站上使用MinION完成了首次在太空中进行的DNA测序。在2014-2016年西非埃博拉疫情期间,MinION被带到疫区,实时测序病毒基因组以追踪传播链。
第三代测序的长读数与NGS的短读数形成了互补关系:长读数像是一份完整的大纲,帮助我们把握基因组的整体框架结构;短读数则像精细的校对员,确保每个碱基的准确性。现代基因组研究越来越倾向于将两者结合使用,以获得最完整的基因组信息。
| 特征 | 第一代(桑格) | 第二代(Illumina NGS) | 第三代(PacBio/Nanopore) |
|---|---|---|---|
| 读长 | 800-1000 bp | 150-300 bp | 10-100+ kb |
| 通量 | 低(单条) | 极高(数十亿条) | 中等(数百万条) |
| 准确率 | ~99.99% | ~99.9% | ~95-99%(持续提高中) |
| 测序成本/基因组 | 数千万美元 | <1000美元 | 1000-5000美元 |
| 测序速度 | 数小时/条 | 1-2天/基因组 | 实时(分钟-小时) |
| 是否需要PCR扩增 | 是 | 是 | 否(单分子) |
| 典型应用 | 验证测序、小片段 | 全基因组、外显子组 | 基因组拼装、表观修饰 |
展望未来,测序技术正在向更加令人惊叹的方向发展。单细胞测序技术让我们能够读取单个细胞的基因组、转录组乃至表观基因组,揭示组织和肿瘤内部的细胞异质性——这对理解癌症进化和大脑神经多样性至关重要。实时测序和体内测序的愿景是让测序设备直接嵌入活体组织中,连续监测基因表达的变化。此外,DNA不仅可以被"读取",还可以被"写入"——DNA数据存储技术正在探索将数字信息编码到合成的DNA分子中,利用DNA极高的信息密度和数千年的稳定性,作为未来海量数据的存储介质。