第13章:主流模型架构横评
前几章我们拆解了构成现代 LLM 的关键组件:RoPE、GQA、SwiGLU、RMSNorm……但真实的模型不是零件的堆砌,而是一系列工程权衡的结晶。本章横评三个最具代表性的开源模型家族——LLaMA、Qwen、DeepSeek——看它们如何在相同的技术工具箱里做出不同的选择,以及这些选择背后的商业逻辑与工程哲学。
13.1 LLaMA 系列架构解析
问题:研究社区能不能有一个"公共地基"?
2023 年之前,GPT-3 系列高居于闭源围墙之后。学术界想研究 LLM 的涌现行为、对齐方法、量化压缩,却没有一个可以自由修改的权重。Meta AI 的 LLaMA-1 正是在这个背景下诞生的——一个面向研究者开放、性能可与 GPT-3.5 媲美的基础模型。
LLaMA-1(2023):极简却完整的基础架构
LLaMA-1 的架构选择可以用四个词概括:
| 组件 | 选择 | 原因 |
|---|---|---|
| 位置编码 | RoPE(Rotary Position Embedding) | 外推能力强,无需训练绝对位置参数 |
| 激活函数 | SwiGLU | 比 GeLU 在语言任务上更优,来自 PaLM 的验证 |
| 归一化 | RMSNorm(Pre-LN 位置) | 比 LayerNorm 快 ~7%,训练更稳定 |
| 注意力 | MHA(Multi-Head Attention) | 经典配置,7B-65B 均采用 |
Pre-LN(前置归一化)的公式为:
相比 Post-LN,Pre-LN 梯度更稳定,允许不使用学习率 warmup 也能收敛。
LLaMA-1 的词表大小为 32K,使用 BPE(Byte-Pair Encoding)分词,主要面向英文。
LLaMA-2(2023 年 7 月):GQA 的首次大规模验证
LLaMA-2 最重要的架构变化是在 70B 版本引入了 GQA(Grouped Query Attention):
- 7B / 13B:仍使用 MHA
- 70B:使用 GQA,8 个 KV 头共享给 64 个 Query 头
GQA 的核心公式( 为组数, 为 Query 头数):
对于 70B 模型,KV cache 降低到原来的 ,长序列推理内存压力大幅缓解。
此外,LLaMA-2 引入了 RLHF(Reinforcement Learning from Human Feedback) 训练的对话版本 LLaMA-2-Chat,并将上下文长度从 2048 扩展到 4096 tokens。
LLaMA-3(2024 年):词表扩张与 GQA 全面推广
LLaMA-3 的核心变化:
-
词表从 32K 扩展到 128K:更好地支持多语言和代码,减少中文等非英语语言的 token 碎片化。同样的中文句子,token 数量减少约 30-40%。
-
GQA 全面推广:8B 和 70B 版本均采用 GQA,8B 模型使用 8 个 KV 头(Query 头为 32)。
-
上下文长度扩展到 8K(基础版本),通过 RoPE 频率调整可继续扩展。
:::info LLaMA 为何成为开源生态基石? 技术之外,许可证策略同样关键:
- LLaMA-1:研究许可,禁止商用
- LLaMA-2:允许月活 7 亿以下的产品商用
- LLaMA-3:Apache License 2.0,几乎完全开放
Apache 2.0 让任何公司都可以基于 LLaMA-3 构建商业产品,无需回馈代码。这一决策瞬间激活了整个开源生态:LoRA 微调、量化工具(llama.cpp)、下游模型(Vicuna、Alpaca、WizardLM……)都在 LLaMA 上构建。Meta 的策略是:用开源建立事实标准,把研究基础设施的主导权握在自己手中。 :::
13.2 Qwen 架构特点
问题:如何让同一个模型同时处理好中文、英文和代码?
通用语言模型面临一个根本性的多语言挑战:不同语言的字符密度差异悬殊。英语一个 token 约对应 4 个字符;中文一个 token 可能只对应 1-2 个汉字(取决于词表大小)。词表太小,中文输入会被切成大量碎片,不仅效率低,还会损失语义完整性。
阿里 Qwen(通义千问)的解法是:把词表做得足够大。
超大词表:152K tokens
Qwen2/Qwen2.5 采用 152K token 词表,远超 LLaMA-3 的 128K。这一设计带来:
- 中文词汇覆盖更完整,常用汉字组合直接映射为单个 token
- 代码关键词、标点符号获得独立 token 槽位
- 数学符号和特殊字符得到更好支持
词表扩大的代价是 Embedding 层参数量增加。对于隐藏维度为 的模型,Embedding 参数量为 。当 ,(72B 模型),仅 Embedding 就有约 1.25B 参数。
标准 Transformer 配置 + 工程优化
Qwen 的注意力机制延续了 LLM 社区共识:
- GQA:Qwen2.5-72B 使用 64 个 Query 头,8 个 KV 头
- RoPE:与 LLaMA 相同,支持长上下文外推
- SwiGLU:FFN 层激活函数
- RMSNorm + Pre-LN:训练稳定性保证
Qwen2.5 的主要改进
Qwen2.5 系列(2024 年 9 月发布)在 Qwen2 基础上的核心改进:
| 改进点 | Qwen2 → Qwen2.5 |
|---|---|
| 训练数据 | 7T tokens → 18T tokens |
| 代码能力 | 基础代码理解 |
| 数学能力 | 有限数学推理 |
| 指令跟随 | 标准 RLHF |
| 上下文长度 | 128K |
:::tip Qwen 的生态策略 Qwen 采用"主干 + 垂直"策略:Qwen2.5 作为通用基座,同时发布 Qwen2.5-Coder(代码)、Qwen2.5-Math(数学)、Qwen-VL(视觉语言)等专项模型,共享基础架构,降低维护成本。这与 LLaMA 的"单一基座、社区微调"策略形成对比。 :::
13.3 DeepSeek 架构创新
问题:大模型的训练成本是否必然是天文数字?
2024 年初,训练一个 GPT-4 级别的模型被普遍认为需要数亿美元。DeepSeek 用实际行动提出了挑战:以极低成本达到顶级性能。这不只是一个中国公司的成功故事,而是一次架构层面的效率革命。
DeepSeek-V2:MLA 的首次引入
DeepSeek-V2(2024 年 5 月)最重要的创新是 MLA(Multi-head Latent Attention,多头潜空间注意力)。
问题的根源:传统 MHA 在推理时,KV cache 与序列长度和层数成正比增长。对于 128K 上下文的 236B 参数模型,KV cache 可能占用数十 GB,严重限制并发请求数量。
GQA 减少了 KV 头数,但本质上仍是对完整 Key/Value 的低秩近似。MLA 走得更远:将 Key 和 Value 投影到一个低维潜空间(latent space),只缓存低维表示。
设隐藏维度为 ,MHA 的每个 KV 头维度为 ,MLA 将其压缩为维度 ():
推理时只需缓存 (维度 ),而非完整的 (维度 )。
DeepSeek-V2 的 MLA 参数:,而等效 MHA 的 KV 维度为 ,KV cache 压缩比约 32:1。
DeepSeek-V3:MoE 的极致规模化
DeepSeek-V3(2024 年 12 月)将 MoE(Mixture of Experts)推向新的极限:
- 总参数:671B
- 每 token 激活参数:37B(约 5.5% 的参数参与每次前向传播)
- 专家配置:256 个专家,每个 token 激活 8 个
这意味着模型的"有效计算量"只有全量激活的 5.5%,但通过路由机制,不同类型的输入可以激活不同的专家组合。
DeepSeek-V3 的训练成本震惊了业界:
:::warning 为什么 DeepSeek-V3 引发全球关注?
训练成本:DeepSeek 官方披露,V3 的预训练总计花费约 2048 块 H800 GPU × 2个月,折合算力成本约 557万美元。
作为对比,GPT-4 的训练成本估算在 1亿美元量级,Claude 3 Opus 和 Gemini Ultra 也在相近区间。
DeepSeek-V3 用 1/20 的成本,在多个 benchmark 上达到甚至超过 GPT-4o 和 Claude 3.5 Sonnet 的水平。
这不是"用更多钱堆出来的"——而是架构创新(MLA + MoE)+ 工程优化(FP8 混合精度训练、无辅助损失的负载均衡)共同作用的结果。这一结果迫使整个行业重新思考:扩大规模(scaling)是唯一路径吗? :::
DeepSeek-V3 的另一个创新是无辅助损失的 MoE 负载均衡。传统 MoE 需要添加辅助损失(auxiliary loss)防止所有 token 路由到同一批专家,但这会干扰主任务的优化。DeepSeek-V3 引入专家偏置项(bias),在不影响损失函数的情况下实现负载均衡。
DeepSeek-R1:强化学习驱动的推理能力
DeepSeek-R1(2025 年 1 月)展示了一种不同的能力获取路径:不依赖大量人工标注,而是通过纯强化学习让模型自主发展推理能力。
核心观察:给模型一个数学问题,让它输出思维链(Chain-of-Thought),用最终答案的正确性作为奖励信号。经过足够多的 RL 训练,模型自发学会了:
- 分步推理(step-by-step reasoning)
- 自我反思(self-reflection):"等一下,前面的假设有问题……"
- 回溯修正(backtracking)
这些行为没有被明确训练,而是从奖励信号中涌现出来的。R1 在 AIME 2024(美国数学邀请赛)上的通过率达到 79.8%,超过 OpenAI o1。
:::info 效率革命的深层意义
DeepSeek 的系列工作传递了三个重要信息:
- 架构创新仍有巨大空间:MLA 证明 KV cache 可以压缩 30 倍以上,而不损失性能
- 训练效率可以工程化提升:FP8 训练、通信优化等工程手段能将成本降低一个数量级
- 推理能力可以强化学习涌现:不需要大量人工标注的思维链数据
这三点合在一起,意味着"顶级模型只有科技巨头才能负担"的假设正在被打破。 :::
13.4 各架构设计权衡总结
关键架构参数对比
| 参数 | LLaMA-3 70B | Qwen2.5 72B | DeepSeek-V3 671B |
|---|---|---|---|
| 总参数量 | 70B | 72B | 671B |
| 激活参数量 | 70B(密集) | 72B(密集) | 37B(MoE) |
| 模型类型 | 密集(Dense) | 密集(Dense) | MoE |
| 注意力机制 | GQA | GQA | MLA |
| Query 头数 | 64 | 64 | 128 |
| KV 头数 | 8 | 8 | - (latent dim 512) |
| 词表大小 | 128K | 152K | 129K |
| 上下文长度 | 8K(base) | 128K | 128K |
| FFN 激活 | SwiGLU | SwiGLU | SwiGLU |
| 位置编码 | RoPE | RoPE | RoPE |
| 归一化 | RMSNorm | RMSNorm | RMSNorm |
| 层数 | 80 | 80 | 61 |
| 隐藏维度 | 8192 | 8192 | 7168 |
| 许可证 | Apache 2.0 | Apache 2.0 | MIT |
| 训练 tokens | 15T+ | 18T | 14.8T |
密集(Dense)vs MoE 的权衡
MoE 不是免费的午餐:
| 维度 | 密集模型 | MoE 模型 |
|---|---|---|
| 推理内存 | 正比于总参数 | 需加载所有专家权重 |
| 推理计算 | 正比于总参数 | 正比于激活参数 |
| 单请求延迟 | 较低 | 相近(激活参数决定) |
| 批处理吞吐 | 中等 | 高(计算密度低) |
| 训练效率 | 简单,无路由开销 | 需处理负载均衡 |
| 部署门槛 | 低(单卡/少卡) | 高(需加载全部专家) |
对于 DeepSeek-V3:虽然激活参数只有 37B,但加载完整模型仍需要约 1.3TB 的显存(FP8 精度下约 670GB)。这意味着 MoE 的推理优势主要体现在大规模在线服务场景,而非个人部署。
开源 vs 闭源的生态博弈
闭源(GPT-4o, Claude 3.5, Gemini Ultra)
优势:商业利益最大化,API 变现
劣势:生态依赖单一厂商,研究者无法复现
开源(LLaMA-3, Qwen2.5, DeepSeek-V3)
优势:建立标准,吸引生态,研究可复现
劣势:竞争对手可直接使用权重
值得注意的是:三大开源模型背后都有商业公司(Meta、阿里、深度求索),开源是战略选择而非纯粹公益。Meta 希望打破 OpenAI/Google 的闭源垄断;阿里希望通义成为云服务生态的入口;DeepSeek 的开源则是一次技术实力的全球展示。
当前架构的技术共识
经过 2023-2025 年的竞争与验证,LLM 架构已经形成高度共识:
这五个组件几乎出现在所有主流模型中。差异主要体现在:
- 规模策略:密集 vs MoE
- 词表大小:多语言覆盖 vs 效率
- 上下文长度:训练成本 vs 应用场景
- 训练数据:质量 vs 数量
本章小结
| 模型家族 | 核心创新 | 战略定位 | 关键数字 |
|---|---|---|---|
| LLaMA | 开源标准化,Apache 许可 | 生态基石,研究基础设施 | 128K 词表,GQA 全面普及 |
| Qwen | 超大词表,多语言+代码 | 中文生态,垂直系列 | 152K 词表,18T 训练数据 |
| DeepSeek | MLA + MoE,效率革命 | 顶级性能,极低成本 | 671B/37B,557万美元训练 |
架构横评的结论不是"谁更好",而是:不同的工程权衡服务于不同的目标。LLaMA 优化的是生态可及性,Qwen 优化的是多语言覆盖,DeepSeek 优化的是参数效率。
然而,这些模型在推理时的表现不只取决于架构,还取决于如何高效地服务这些模型。下一章,我们将转向推理系统——vLLM、SGLang 等推理框架如何通过 PagedAttention、Continuous Batching 等技术,让这些庞大的模型在实际生产环境中高效运行。