第13章：主流模型架构横评

前几章我们拆解了构成现代 LLM 的关键组件：RoPE、GQA、SwiGLU、RMSNorm……但真实的模型不是零件的堆砌，而是一系列工程权衡的结晶。本章横评三个最具代表性的开源模型家族——LLaMA、Qwen、DeepSeek——看它们如何在相同的技术工具箱里做出不同的选择，以及这些选择背后的商业逻辑与工程哲学。

13.1 LLaMA 系列架构解析

问题：研究社区能不能有一个"公共地基"？

2023 年之前，GPT-3 系列高居于闭源围墙之后。学术界想研究 LLM 的涌现行为、对齐方法、量化压缩，却没有一个可以自由修改的权重。Meta AI 的 LLaMA-1 正是在这个背景下诞生的——一个面向研究者开放、性能可与 GPT-3.5 媲美的基础模型。

LLaMA-1（2023）：极简却完整的基础架构

LLaMA-1 的架构选择可以用四个词概括：

组件	选择	原因
位置编码	RoPE（Rotary Position Embedding）	外推能力强，无需训练绝对位置参数
激活函数	SwiGLU	比 GeLU 在语言任务上更优，来自 PaLM 的验证
归一化	RMSNorm（Pre-LN 位置）	比 LayerNorm 快 ~7%，训练更稳定
注意力	MHA（Multi-Head Attention）	经典配置，7B-65B 均采用

Pre-LN（前置归一化）的公式为：

\text{output} = x + \text{Attention}(\text{RMSNorm}(x))

相比 Post-LN，Pre-LN 梯度更稳定，允许不使用学习率 warmup 也能收敛。

LLaMA-1 的词表大小为 32K，使用 BPE（Byte-Pair Encoding）分词，主要面向英文。

LLaMA-2（2023 年 7 月）：GQA 的首次大规模验证

LLaMA-2 最重要的架构变化是在 70B 版本引入了 GQA（Grouped Query Attention）：

7B / 13B：仍使用 MHA
70B：使用 GQA，8 个 KV 头共享给 64 个 Query 头

GQA 的核心公式（ $G$ 为组数， $H$ 为 Query 头数）：

\text{KV cache size} = \frac{G}{H} \times \text{MHA cache size}

对于 70B 模型，KV cache 降低到原来的 $\frac{8}{64} = 12.5\%$ ，长序列推理内存压力大幅缓解。

此外，LLaMA-2 引入了 RLHF（Reinforcement Learning from Human Feedback） 训练的对话版本 LLaMA-2-Chat，并将上下文长度从 2048 扩展到 4096 tokens。

LLaMA-3（2024 年）：词表扩张与 GQA 全面推广

LLaMA-3 的核心变化：

词表从 32K 扩展到 128K：更好地支持多语言和代码，减少中文等非英语语言的 token 碎片化。同样的中文句子，token 数量减少约 30-40%。
GQA 全面推广：8B 和 70B 版本均采用 GQA，8B 模型使用 8 个 KV 头（Query 头为 32）。
上下文长度扩展到 8K（基础版本），通过 RoPE 频率调整可继续扩展。

:::info LLaMA 为何成为开源生态基石？技术之外，许可证策略同样关键：

LLaMA-1：研究许可，禁止商用
LLaMA-2：允许月活 7 亿以下的产品商用
LLaMA-3：Apache License 2.0，几乎完全开放

Apache 2.0 让任何公司都可以基于 LLaMA-3 构建商业产品，无需回馈代码。这一决策瞬间激活了整个开源生态：LoRA 微调、量化工具（llama.cpp）、下游模型（Vicuna、Alpaca、WizardLM……）都在 LLaMA 上构建。Meta 的策略是：用开源建立事实标准，把研究基础设施的主导权握在自己手中。 :::

13.2 Qwen 架构特点

问题：如何让同一个模型同时处理好中文、英文和代码？

通用语言模型面临一个根本性的多语言挑战：不同语言的字符密度差异悬殊。英语一个 token 约对应 4 个字符；中文一个 token 可能只对应 1-2 个汉字（取决于词表大小）。词表太小，中文输入会被切成大量碎片，不仅效率低，还会损失语义完整性。

阿里 Qwen（通义千问）的解法是：把词表做得足够大。

超大词表：152K tokens

Qwen2/Qwen2.5 采用 152K token 词表，远超 LLaMA-3 的 128K。这一设计带来：

中文词汇覆盖更完整，常用汉字组合直接映射为单个 token
代码关键词、标点符号获得独立 token 槽位
数学符号和特殊字符得到更好支持

词表扩大的代价是 Embedding 层参数量增加。对于隐藏维度为 $d$ 的模型，Embedding 参数量为 $|V| \times d$ 。当 $|V| = 152\text{K}$ ， $d = 8192$ （72B 模型），仅 Embedding 就有约 1.25B 参数。

标准 Transformer 配置 + 工程优化

Qwen 的注意力机制延续了 LLM 社区共识：

GQA：Qwen2.5-72B 使用 64 个 Query 头，8 个 KV 头
RoPE：与 LLaMA 相同，支持长上下文外推
SwiGLU：FFN 层激活函数
RMSNorm + Pre-LN：训练稳定性保证

Qwen2.5 的主要改进

Qwen2.5 系列（2024 年 9 月发布）在 Qwen2 基础上的核心改进：

改进点	Qwen2 → Qwen2.5
训练数据	7T tokens → 18T tokens
代码能力	基础代码理解
数学能力	有限数学推理
指令跟随	标准 RLHF
上下文长度	128K

:::tip Qwen 的生态策略 Qwen 采用"主干 + 垂直"策略：Qwen2.5 作为通用基座，同时发布 Qwen2.5-Coder（代码）、Qwen2.5-Math（数学）、Qwen-VL（视觉语言）等专项模型，共享基础架构，降低维护成本。这与 LLaMA 的"单一基座、社区微调"策略形成对比。 :::

13.3 DeepSeek 架构创新

问题：大模型的训练成本是否必然是天文数字？

2024 年初，训练一个 GPT-4 级别的模型被普遍认为需要数亿美元。DeepSeek 用实际行动提出了挑战：以极低成本达到顶级性能。这不只是一个中国公司的成功故事，而是一次架构层面的效率革命。

DeepSeek-V2：MLA 的首次引入

DeepSeek-V2（2024 年 5 月）最重要的创新是 MLA（Multi-head Latent Attention，多头潜空间注意力）。

问题的根源：传统 MHA 在推理时，KV cache 与序列长度和层数成正比增长。对于 128K 上下文的 236B 参数模型，KV cache 可能占用数十 GB，严重限制并发请求数量。

GQA 减少了 KV 头数，但本质上仍是对完整 Key/Value 的低秩近似。MLA 走得更远：将 Key 和 Value 投影到一个低维潜空间（latent space），只缓存低维表示。

设隐藏维度为 $d$ ，MHA 的每个 KV 头维度为 $d_h$ ，MLA 将其压缩为维度 $d_c$ （ $d_c \ll d_h \times n_{heads}$ ）：

c_{KV} = W^{DKV} h_t \quad \in \mathbb{R}^{d_c}

K = W^{UK} c_{KV}, \quad V = W^{UV} c_{KV}

推理时只需缓存 $c_{KV}$ （维度 $d_c$ ），而非完整的 $K, V$ （维度 $d_h \times n_{heads}$ ）。

DeepSeek-V2 的 MLA 参数： $d_c = 512$ ，而等效 MHA 的 KV 维度为 $128 \times 128 = 16384$ ，KV cache 压缩比约 32:1。

DeepSeek-V3：MoE 的极致规模化

DeepSeek-V3（2024 年 12 月）将 MoE（Mixture of Experts）推向新的极限：

总参数：671B
每 token 激活参数：37B（约 5.5% 的参数参与每次前向传播）
专家配置：256 个专家，每个 token 激活 8 个

这意味着模型的"有效计算量"只有全量激活的 5.5%，但通过路由机制，不同类型的输入可以激活不同的专家组合。

DeepSeek-V3 的训练成本震惊了业界：

:::warning 为什么 DeepSeek-V3 引发全球关注？

训练成本：DeepSeek 官方披露，V3 的预训练总计花费约 2048 块 H800 GPU × 2个月，折合算力成本约 557万美元。

作为对比，GPT-4 的训练成本估算在 1亿美元量级，Claude 3 Opus 和 Gemini Ultra 也在相近区间。

DeepSeek-V3 用 1/20 的成本，在多个 benchmark 上达到甚至超过 GPT-4o 和 Claude 3.5 Sonnet 的水平。

这不是"用更多钱堆出来的"——而是架构创新（MLA + MoE）+ 工程优化（FP8 混合精度训练、无辅助损失的负载均衡）共同作用的结果。这一结果迫使整个行业重新思考：扩大规模（scaling）是唯一路径吗？ :::

DeepSeek-V3 的另一个创新是无辅助损失的 MoE 负载均衡。传统 MoE 需要添加辅助损失（auxiliary loss）防止所有 token 路由到同一批专家，但这会干扰主任务的优化。DeepSeek-V3 引入专家偏置项（bias），在不影响损失函数的情况下实现负载均衡。

DeepSeek-R1：强化学习驱动的推理能力

DeepSeek-R1（2025 年 1 月）展示了一种不同的能力获取路径：不依赖大量人工标注，而是通过纯强化学习让模型自主发展推理能力。

核心观察：给模型一个数学问题，让它输出思维链（Chain-of-Thought），用最终答案的正确性作为奖励信号。经过足够多的 RL 训练，模型自发学会了：

分步推理（step-by-step reasoning）
自我反思（self-reflection）："等一下，前面的假设有问题……"
回溯修正（backtracking）

这些行为没有被明确训练，而是从奖励信号中涌现出来的。R1 在 AIME 2024（美国数学邀请赛）上的通过率达到 79.8%，超过 OpenAI o1。

:::info 效率革命的深层意义

DeepSeek 的系列工作传递了三个重要信息：

架构创新仍有巨大空间：MLA 证明 KV cache 可以压缩 30 倍以上，而不损失性能
训练效率可以工程化提升：FP8 训练、通信优化等工程手段能将成本降低一个数量级
推理能力可以强化学习涌现：不需要大量人工标注的思维链数据

这三点合在一起，意味着"顶级模型只有科技巨头才能负担"的假设正在被打破。 :::

13.4 各架构设计权衡总结

关键架构参数对比

参数	LLaMA-3 70B	Qwen2.5 72B	DeepSeek-V3 671B
总参数量	70B	72B	671B
激活参数量	70B（密集）	72B（密集）	37B（MoE）
模型类型	密集（Dense）	密集（Dense）	MoE
注意力机制	GQA	GQA	MLA
Query 头数	64	64	128
KV 头数	8	8	- (latent dim 512)
词表大小	128K	152K	129K
上下文长度	8K（base）	128K	128K
FFN 激活	SwiGLU	SwiGLU	SwiGLU
位置编码	RoPE	RoPE	RoPE
归一化	RMSNorm	RMSNorm	RMSNorm
层数	80	80	61
隐藏维度	8192	8192	7168
许可证	Apache 2.0	Apache 2.0	MIT
训练 tokens	15T+	18T	14.8T

密集（Dense）vs MoE 的权衡

MoE 不是免费的午餐：

维度	密集模型	MoE 模型
推理内存	正比于总参数	需加载所有专家权重
推理计算	正比于总参数	正比于激活参数
单请求延迟	较低	相近（激活参数决定）
批处理吞吐	中等	高（计算密度低）
训练效率	简单，无路由开销	需处理负载均衡
部署门槛	低（单卡/少卡）	高（需加载全部专家）

对于 DeepSeek-V3：虽然激活参数只有 37B，但加载完整模型仍需要约 1.3TB 的显存（FP8 精度下约 670GB）。这意味着 MoE 的推理优势主要体现在大规模在线服务场景，而非个人部署。

开源 vs 闭源的生态博弈

闭源（GPT-4o, Claude 3.5, Gemini Ultra）
  优势：商业利益最大化，API 变现
  劣势：生态依赖单一厂商，研究者无法复现

开源（LLaMA-3, Qwen2.5, DeepSeek-V3）
  优势：建立标准，吸引生态，研究可复现
  劣势：竞争对手可直接使用权重

值得注意的是：三大开源模型背后都有商业公司（Meta、阿里、深度求索），开源是战略选择而非纯粹公益。Meta 希望打破 OpenAI/Google 的闭源垄断；阿里希望通义成为云服务生态的入口；DeepSeek 的开源则是一次技术实力的全球展示。

当前架构的技术共识

经过 2023-2025 年的竞争与验证，LLM 架构已经形成高度共识：

\text{现代 LLM} = \text{Decoder-only} + \text{GQA/MLA} + \text{RoPE} + \text{RMSNorm} + \text{SwiGLU}

这五个组件几乎出现在所有主流模型中。差异主要体现在：

规模策略：密集 vs MoE
词表大小：多语言覆盖 vs 效率
上下文长度：训练成本 vs 应用场景
训练数据：质量 vs 数量

本章小结

模型家族	核心创新	战略定位	关键数字
LLaMA	开源标准化，Apache 许可	生态基石，研究基础设施	128K 词表，GQA 全面普及
Qwen	超大词表，多语言+代码	中文生态，垂直系列	152K 词表，18T 训练数据
DeepSeek	MLA + MoE，效率革命	顶级性能，极低成本	671B/37B，557万美元训练

架构横评的结论不是"谁更好"，而是：不同的工程权衡服务于不同的目标。LLaMA 优化的是生态可及性，Qwen 优化的是多语言覆盖，DeepSeek 优化的是参数效率。

然而，这些模型在推理时的表现不只取决于架构，还取决于如何高效地服务这些模型。下一章，我们将转向推理系统——vLLM、SGLang 等推理框架如何通过 PagedAttention、Continuous Batching 等技术，让这些庞大的模型在实际生产环境中高效运行。

13.1 LLaMA 系列架构解析​

问题：研究社区能不能有一个"公共地基"？​

LLaMA-1（2023）：极简却完整的基础架构​

LLaMA-2（2023 年 7 月）：GQA 的首次大规模验证​

LLaMA-3（2024 年）：词表扩张与 GQA 全面推广​

13.2 Qwen 架构特点​

问题：如何让同一个模型同时处理好中文、英文和代码？​

超大词表：152K tokens​

标准 Transformer 配置 + 工程优化​

Qwen2.5 的主要改进​

13.3 DeepSeek 架构创新​

问题：大模型的训练成本是否必然是天文数字？​

DeepSeek-V2：MLA 的首次引入​

DeepSeek-V3：MoE 的极致规模化​

DeepSeek-R1：强化学习驱动的推理能力​

13.4 各架构设计权衡总结​

关键架构参数对比​

密集（Dense）vs MoE 的权衡​

开源 vs 闭源的生态博弈​

当前架构的技术共识​

本章小结​