第8章 · 从DNA到蛋白质 | DNA的化学基础

Section 01

中心法则 — 克里克的宏大构想

1953年，沃森和克里克发现了DNA的双螺旋结构。但结构的发现只是开始，真正令人震撼的问题随之而来：储存在DNA中的遗传信息，究竟是如何变成活生生的生命特征的？你的眼睛是什么颜色、你的血型是什么、你的身高由什么决定——这些信息全部编码在DNA的碱基序列中，但DNA本身并不能"做事"。真正执行生命活动的是另一类分子：蛋白质。

1958年，弗朗西斯·克里克在一篇极具远见的论文中提出了"中心法则"（Central Dogma）。这个法则用一句话概括就是：遗传信息的流动方向是DNA → RNA → 蛋白质。信息一旦进入蛋白质，就无法再倒流回核酸。这个构想如此简洁有力，以至于成为分子生物学最重要的理论框架之一。

"The Central Dogma of molecular biology deals with the detailed residue-by-residue transfer of sequential information. It states that such information cannot be transferred back from protein to either protein or nucleic acid."

—— Francis Crick, 1970

让我们用一个生动的比喻来理解这个框架。想象你是一位建筑师，要建造一座大楼。首先，你有一份极其珍贵的原始蓝图——它保存在保险箱里，不能带出办公室（这就是DNA，储存在细胞核中，受到严格保护）。然后，你需要把蓝图中某一页的内容抄写到一张工作纸上，方便带到工地上参考（这就是RNA，是DNA信息的"工作副本"）。最后，工人根据这张工作纸上的指示，一砖一瓦地建造出真正的大楼（这就是蛋白质，是生命功能的实际执行者）。

为什么需要RNA这个"中间人"？直接用DNA指导蛋白质合成不行吗？这个问题问得好。DNA是细胞的"核心资产"，它必须被妥善保护在细胞核中，避免频繁暴露于细胞质中各种酶的降解风险。RNA作为"一次性工作副本"，可以被大量生产、短暂使用、然后降解——这大大提高了系统的安全性和灵活性。一个基因可以同时转录出许多份RNA拷贝，让多个核糖体同时工作，快速大量地生产所需的蛋白质。

当然，科学总是在进步的。克里克最初描述的单向信息流后来被发现有例外。1970年，霍华德·特明（Howard Temin）和大卫·巴尔的摩（David Baltimore）独立发现了逆转录酶——一种能将RNA信息"反向"写回DNA的酶，这在逆转录病毒（如HIV）中至关重要。此外，许多RNA病毒可以在RNA水平上进行自我复制（RNA → RNA）。但中心法则的核心思想——信息从核酸流向蛋白质是单向的——至今从未被打破。

中心法则信息流示意图：DNA通过转录生成mRNA，mRNA通过翻译合成蛋白质。虚线表示已知的例外情况（逆转录）。

蛋白质为什么如此重要？因为它们是生命活动的"全能选手"。酶（如消化食物的淀粉酶）是蛋白质，结构蛋白（如头发中的角蛋白、皮肤中的胶原蛋白）是蛋白质，信号分子（如调节血糖的胰岛素）是蛋白质，抗体（保护你免受感染的免疫卫士）也是蛋白质。可以说，DNA储存了信息，但蛋白质才是真正"干活"的分子。接下来的问题就是：DNA中的信息如何精确地传递并转化为蛋白质？

Section 02

转录 — 抄写配方

转录（Transcription）是中心法则的第一步：将DNA中的遗传信息"抄写"成RNA。这个过程就像一位精密的抄写员，逐字逐句地将保险箱中蓝图的内容誊写到工作纸上。这位"抄写员"就是RNA聚合酶（RNA Polymerase）——一个由数百个氨基酸组成的精密分子机器。

转录的起始并非随机的。在基因的开头，有一段特殊的DNA序列叫做启动子（Promoter），它就像一本书的"封面"，告诉RNA聚合酶"从这里开始读"。在真核生物中，最常见的启动子元件是TATA框（TATA box）——一段富含T和A碱基的短序列（典型序列为TATAAA），位于转录起始点上游约25-35个碱基处。多种转录因子蛋白首先识别并结合TATA框，帮助RNA聚合酶准确定位。

模板链与编码链。DNA是双链的，但转录只使用其中一条链作为模板。被RNA聚合酶"阅读"的那条链叫做模板链（template strand，又称反义链），聚合酶沿着它从3'端向5'端移动，按照碱基互补配对原则合成RNA。另一条不被转录的链叫做编码链（coding strand，又称有义链），它的序列（除了T被U替代）与最终的RNA序列相同。注意方向性：RNA的合成方向始终是5'→3'，这意味着模板链被读取的方向是3'→5'。

一个重要细节：RNA中没有胸腺嘧啶（T），取而代之的是尿嘧啶（U）。所以当RNA聚合酶遇到模板链上的腺嘌呤（A）时，它会加入U而不是T。其他配对关系不变：模板链上的T对应RNA中的A，C对应G，G对应C。

RNA聚合酶合成出的初始产物叫做前体mRNA（pre-mRNA），在真核生物中，它还需要经过一系列"加工"才能成为成熟的mRNA，被运出细胞核进入细胞质：

Step 1

5'端加帽（5' Capping）

在mRNA的5'端添加一个特殊的甲基化鸟嘌呤"帽子"（m⁷G cap）。这个帽子就像给工作纸加了一个"防伪标签"，帮助核糖体识别mRNA的起始端，同时保护它不被核酸酶降解。

Step 2

3'端加尾（Polyadenylation）

在mRNA的3'端添加一串腺嘌呤核苷酸——即poly-A尾（通常100-250个A）。这条"尾巴"增加了mRNA的稳定性，也参与了从细胞核到细胞质的转运过程。

Step 3

RNA剪接（Splicing）

这是最令人惊叹的加工步骤。真核生物基因中夹杂着大量不编码蛋白质的序列——内含子（introns），而真正编码蛋白质的片段叫做外显子（exons）。剪接体（spliceosome）——一个由snRNA和蛋白质组成的巨大复合体——精确地切除内含子，并将外显子首尾连接。一个基因通过不同的剪接方式可以产生多种不同的mRNA（可变剪接），大大增加了蛋白质的多样性。

值得一提的是，并非所有RNA都是mRNA。细胞中存在三种主要类型的RNA，各司其职：mRNA（信使RNA）携带蛋白质编码信息；tRNA（转运RNA）作为"适配器"，将正确的氨基酸运送到核糖体；rRNA（核糖体RNA）是核糖体的核心组分，直接催化肽键的形成。可以说，RNA是细胞中最"多才多艺"的分子。

📨

mRNA

Messenger RNA

信使RNA，携带从DNA转录而来的蛋白质编码信息。每三个碱基组成一个密码子，对应一种氨基酸。

🔗

tRNA

Transfer RNA

转运RNA，一端携带特定氨基酸，另一端的反密码子与mRNA上的密码子互补配对。是翻译过程中的关键适配器。

🏭

rRNA

Ribosomal RNA

核糖体RNA，构成核糖体的骨架和催化中心。rRNA具有核酶活性，直接催化肽键的形成。

Section 03

遗传密码 — 破译密码

mRNA已经诞生，现在一个关键问题摆在面前：四种碱基（A、U、C、G）如何编码二十种氨基酸？这是一个纯粹的信息编码问题。如果每个碱基编码一种氨基酸，那只能编码4种——远远不够。如果两个碱基一组，4² = 16种组合，仍然不够。只有三个碱基一组时，4³ = 64种组合才超过20种氨基酸的需要。克里克和悉尼·布伦纳（Sydney Brenner）在1961年通过精妙的遗传学实验证实了这个推断：遗传密码确实是三联体密码（triplet codon）。

4

种碱基
(A, U, C, G)

64

种密码子
(4³ 组合)

61

种编码
氨基酸

3

种终止
密码子

20

种标准
氨基酸

1

种起始
密码子 (AUG)

在64种密码子中，61种编码氨基酸，3种是终止密码子（UAA、UAG、UGA），它们不编码任何氨基酸，而是充当"句号"——告诉核糖体"蛋白质合成到此结束"。AUG是最常见的起始密码子，它同时编码甲硫氨酸（Met），因此几乎所有新合成的蛋白质都以甲硫氨酸开头（虽然有些在后续加工中会被切除）。

遗传密码有几个令人惊叹的特性。首先是简并性（degeneracy）：由于64种密码子只需要编码20种氨基酸，大多数氨基酸都由多个密码子编码。例如，亮氨酸有6个密码子（UUA、UUG、CUU、CUC、CUA、CUG）！这种冗余设计有一个巧妙之处：同一氨基酸的不同密码子通常只在第三位碱基上不同（即"摇摆位点"，wobble position），这意味着第三位碱基的突变往往不会改变氨基酸——这是一种天然的"容错机制"。

遗传密码的通用性。也许最令人震撼的事实是：从细菌到蓝鲸，从蘑菇到人类，几乎所有生物都使用同一套遗传密码。一个人类基因被转入细菌后，细菌的核糖体能够正确地读取它并合成出同样的蛋白质——这正是基因工程的基础（例如利用大肠杆菌生产人胰岛素）。遗传密码的通用性是所有生命拥有共同祖先的最有力证据之一。如果生命是多次独立起源的，我们没有理由预期它们会使用同一套编码方案。

那么，这套密码最初是如何被破译的呢？1961年，马歇尔·尼伦伯格（Marshall Nirenberg）和海因里希·马太（Heinrich Matthaei）在美国国立卫生研究院进行了一个划时代的实验。他们合成了一个人工RNA——由纯粹的尿嘧啶组成的多聚体（poly-U），然后将其加入无细胞蛋白质合成体系中。结果产生的多肽链全部由苯丙氨酸（Phe）组成——这意味着UUU = 苯丙氨酸，人类历史上第一个被破译的密码子就此诞生。随后，poly-A = 赖氨酸、poly-C = 脯氨酸等密码子也相继被确定。到1966年，全部64个密码子的含义都已被破译。

🧬 交互式密码子表

点击任意密码子查看详细信息

U__

C__

A__

G__

👆 点击上方密码子查看详细信息

Section 04

翻译 — 建造蛋白质

翻译（Translation）是中心法则的最后一步，也是最壮观的一步：一条mRNA分子、数十个tRNA分子、一个巨大的核糖体复合体，加上各种辅助因子，协同工作，将mRNA上的密码子序列转化为一条由氨基酸首尾相连组成的多肽链。这个过程的速度令人惊叹——细菌的核糖体每秒可以添加约15-20个氨基酸。

核糖体（Ribosome）是蛋白质合成的"工厂"。它是一个巨大的分子机器，由大小两个亚基组成。在原核生物中，这两个亚基分别是30S和50S（合称70S）；在真核生物中是40S和60S（合称80S）。核糖体的核心成分是rRNA，它不仅提供结构支架，更重要的是具有催化活性——肽键的形成正是由rRNA催化的，这使得核糖体本质上是一个"核酶"（ribozyme）。这一发现如此重要，以至于2009年的诺贝尔化学奖授予了研究核糖体结构和功能的三位科学家。

核糖体上有三个关键的tRNA结合位点，分别用字母A、P、E标记：

核糖体结构示意图：大亚基含有催化肽键形成的活性中心，小亚基负责mRNA的解码。A位（氨基酰位）接收新的tRNA，P位（肽酰位）携带正在生长的多肽链，E位（出口位）是空tRNA退出的通道。

tRNA（转运RNA）是翻译过程中的"适配器分子"。它的结构像一个三叶草：一端有反密码子（anticodon），可以与mRNA上的密码子互补配对；另一端携带对应的氨基酸。每种tRNA只能携带一种特定的氨基酸，而将正确的氨基酸连接到对应的tRNA上的酶叫做氨酰-tRNA合成酶（aminoacyl-tRNA synthetase）。这种酶对每种氨基酸都具有高度专一性——它们确保了遗传信息从mRNA到蛋白质的精确传递。

翻译过程可以分为三个阶段：

起始（Initiation）。翻译从mRNA上的起始密码子AUG开始。小亚基首先结合mRNA，在起始因子的帮助下沿mRNA扫描，直到找到AUG。然后，携带甲硫氨酸的起始tRNA（反密码子为UAC）与AUG配对。最后，大亚基加入，形成完整的起始复合体，起始tRNA位于P位。

延伸（Elongation）。这是翻译的核心循环过程，每一步添加一个氨基酸。首先，携带正确氨基酸的tRNA进入A位（其反密码子与mRNA上当前密码子互补配对）。然后，肽基转移酶（位于大亚基的rRNA）催化P位上多肽链与A位氨基酸之间形成肽键。最后，核糖体沿mRNA移动三个碱基（一个密码子）的距离——这个过程叫做转位（translocation），原来A位的tRNA移到了P位，原来P位的空tRNA移到了E位并被释放。如此循环往复，多肽链不断延长。

终止（Termination）。当核糖体遇到终止密码子（UAA、UAG或UGA）时，没有对应的tRNA能与之配对。取而代之的是释放因子（release factor）进入A位，触发多肽链从P位的tRNA上被水解释放。随后，核糖体大小亚基解离，mRNA也被释放。一条新生的多肽链就此诞生。

新生的多肽链还不具备完整的功能。它需要经过一系列的翻译后修饰（post-translational modifications）才能成为成熟的蛋白质。首先是折叠——线性多肽链必须折叠成特定的三维结构才能发挥功能，这个过程有时需要"分子伴侣"蛋白质的协助。然后是各种化学修饰：磷酸化（添加磷酸基团，常用于调控酶的活性）、糖基化（添加糖链，常见于膜蛋白和分泌蛋白）、乙酰化、甲基化等等。许多蛋白质还需要被切割——例如胰岛素最初合成的是一条长的前胰岛素原，需要切除中间的一段C肽后才能成为有活性的胰岛素。

"中心法则的优雅之处在于，它将生命看似无穷的复杂性，归结为一套简洁的信息流规则。四种碱基、三联体密码、二十种氨基酸——这就是生命用来构建从细菌到大脑的一切事物的基本语言。"

—— 分子生物学教材评论

从DNA到蛋白质的旅程，是生命最核心的分子叙事。每一次你的细胞分裂、每一次你的肌肉收缩、每一次你的大脑产生一个新的念头，都有数以百万计的转录和翻译事件在幕后默默发生。中心法则不仅揭示了遗传信息流动的基本规律，也为现代生物技术——从基因工程到mRNA疫苗——奠定了理论基础。在下一章中，我们将探索当这套精密的系统出现错误时会发生什么——基因突变与疾病的故事。