Skip to main content

第13章:主流模型架构横评

前几章我们拆解了构成现代 LLM 的关键组件:RoPE、GQA、SwiGLU、RMSNorm……但真实的模型不是零件的堆砌,而是一系列工程权衡的结晶。本章横评三个最具代表性的开源模型家族——LLaMA、Qwen、DeepSeek——看它们如何在相同的技术工具箱里做出不同的选择,以及这些选择背后的商业逻辑与工程哲学。


13.1 LLaMA 系列架构解析

问题:研究社区能不能有一个"公共地基"?

2023 年之前,GPT-3 系列高居于闭源围墙之后。学术界想研究 LLM 的涌现行为、对齐方法、量化压缩,却没有一个可以自由修改的权重。Meta AI 的 LLaMA-1 正是在这个背景下诞生的——一个面向研究者开放、性能可与 GPT-3.5 媲美的基础模型。

LLaMA-1(2023):极简却完整的基础架构

LLaMA-1 的架构选择可以用四个词概括:

组件选择原因
位置编码RoPE(Rotary Position Embedding)外推能力强,无需训练绝对位置参数
激活函数SwiGLU比 GeLU 在语言任务上更优,来自 PaLM 的验证
归一化RMSNorm(Pre-LN 位置)比 LayerNorm 快 ~7%,训练更稳定
注意力MHA(Multi-Head Attention)经典配置,7B-65B 均采用

Pre-LN(前置归一化)的公式为:

output=x+Attention(RMSNorm(x))\text{output} = x + \text{Attention}(\text{RMSNorm}(x))

相比 Post-LN,Pre-LN 梯度更稳定,允许不使用学习率 warmup 也能收敛。

LLaMA-1 的词表大小为 32K,使用 BPE(Byte-Pair Encoding)分词,主要面向英文。

LLaMA-2(2023 年 7 月):GQA 的首次大规模验证

LLaMA-2 最重要的架构变化是在 70B 版本引入了 GQA(Grouped Query Attention)

  • 7B / 13B:仍使用 MHA
  • 70B:使用 GQA,8 个 KV 头共享给 64 个 Query 头

GQA 的核心公式(GG 为组数,HH 为 Query 头数):

KV cache size=GH×MHA cache size\text{KV cache size} = \frac{G}{H} \times \text{MHA cache size}

对于 70B 模型,KV cache 降低到原来的 864=12.5%\frac{8}{64} = 12.5\%,长序列推理内存压力大幅缓解。

此外,LLaMA-2 引入了 RLHF(Reinforcement Learning from Human Feedback) 训练的对话版本 LLaMA-2-Chat,并将上下文长度从 2048 扩展到 4096 tokens

LLaMA-3(2024 年):词表扩张与 GQA 全面推广

LLaMA-3 的核心变化:

  1. 词表从 32K 扩展到 128K:更好地支持多语言和代码,减少中文等非英语语言的 token 碎片化。同样的中文句子,token 数量减少约 30-40%。

  2. GQA 全面推广:8B 和 70B 版本均采用 GQA,8B 模型使用 8 个 KV 头(Query 头为 32)。

  3. 上下文长度扩展到 8K(基础版本),通过 RoPE 频率调整可继续扩展。

:::info LLaMA 为何成为开源生态基石? 技术之外,许可证策略同样关键:

  • LLaMA-1:研究许可,禁止商用
  • LLaMA-2:允许月活 7 亿以下的产品商用
  • LLaMA-3:Apache License 2.0,几乎完全开放

Apache 2.0 让任何公司都可以基于 LLaMA-3 构建商业产品,无需回馈代码。这一决策瞬间激活了整个开源生态:LoRA 微调、量化工具(llama.cpp)、下游模型(Vicuna、Alpaca、WizardLM……)都在 LLaMA 上构建。Meta 的策略是:用开源建立事实标准,把研究基础设施的主导权握在自己手中。 :::


13.2 Qwen 架构特点

问题:如何让同一个模型同时处理好中文、英文和代码?

通用语言模型面临一个根本性的多语言挑战:不同语言的字符密度差异悬殊。英语一个 token 约对应 4 个字符;中文一个 token 可能只对应 1-2 个汉字(取决于词表大小)。词表太小,中文输入会被切成大量碎片,不仅效率低,还会损失语义完整性。

阿里 Qwen(通义千问)的解法是:把词表做得足够大。

超大词表:152K tokens

Qwen2/Qwen2.5 采用 152K token 词表,远超 LLaMA-3 的 128K。这一设计带来:

  • 中文词汇覆盖更完整,常用汉字组合直接映射为单个 token
  • 代码关键词、标点符号获得独立 token 槽位
  • 数学符号和特殊字符得到更好支持

词表扩大的代价是 Embedding 层参数量增加。对于隐藏维度为 dd 的模型,Embedding 参数量为 V×d|V| \times d。当 V=152K|V| = 152\text{K}d=8192d = 8192(72B 模型),仅 Embedding 就有约 1.25B 参数

标准 Transformer 配置 + 工程优化

Qwen 的注意力机制延续了 LLM 社区共识:

  • GQA:Qwen2.5-72B 使用 64 个 Query 头,8 个 KV 头
  • RoPE:与 LLaMA 相同,支持长上下文外推
  • SwiGLU:FFN 层激活函数
  • RMSNorm + Pre-LN:训练稳定性保证

Qwen2.5 的主要改进

Qwen2.5 系列(2024 年 9 月发布)在 Qwen2 基础上的核心改进:

改进点Qwen2 → Qwen2.5
训练数据7T tokens → 18T tokens
代码能力基础代码理解
数学能力有限数学推理
指令跟随标准 RLHF
上下文长度128K

:::tip Qwen 的生态策略 Qwen 采用"主干 + 垂直"策略:Qwen2.5 作为通用基座,同时发布 Qwen2.5-Coder(代码)、Qwen2.5-Math(数学)、Qwen-VL(视觉语言)等专项模型,共享基础架构,降低维护成本。这与 LLaMA 的"单一基座、社区微调"策略形成对比。 :::


13.3 DeepSeek 架构创新

问题:大模型的训练成本是否必然是天文数字?

2024 年初,训练一个 GPT-4 级别的模型被普遍认为需要数亿美元。DeepSeek 用实际行动提出了挑战:以极低成本达到顶级性能。这不只是一个中国公司的成功故事,而是一次架构层面的效率革命。

DeepSeek-V2:MLA 的首次引入

DeepSeek-V2(2024 年 5 月)最重要的创新是 MLA(Multi-head Latent Attention,多头潜空间注意力)

问题的根源:传统 MHA 在推理时,KV cache 与序列长度和层数成正比增长。对于 128K 上下文的 236B 参数模型,KV cache 可能占用数十 GB,严重限制并发请求数量。

GQA 减少了 KV 头数,但本质上仍是对完整 Key/Value 的低秩近似。MLA 走得更远:将 Key 和 Value 投影到一个低维潜空间(latent space),只缓存低维表示。

设隐藏维度为 dd,MHA 的每个 KV 头维度为 dhd_h,MLA 将其压缩为维度 dcd_cdcdh×nheadsd_c \ll d_h \times n_{heads}):

cKV=WDKVhtRdcc_{KV} = W^{DKV} h_t \quad \in \mathbb{R}^{d_c} K=WUKcKV,V=WUVcKVK = W^{UK} c_{KV}, \quad V = W^{UV} c_{KV}

推理时只需缓存 cKVc_{KV}(维度 dcd_c),而非完整的 K,VK, V(维度 dh×nheadsd_h \times n_{heads})。

DeepSeek-V2 的 MLA 参数:dc=512d_c = 512,而等效 MHA 的 KV 维度为 128×128=16384128 \times 128 = 16384KV cache 压缩比约 32:1

DeepSeek-V3:MoE 的极致规模化

DeepSeek-V3(2024 年 12 月)将 MoE(Mixture of Experts)推向新的极限:

  • 总参数:671B
  • 每 token 激活参数:37B(约 5.5% 的参数参与每次前向传播)
  • 专家配置:256 个专家,每个 token 激活 8 个

这意味着模型的"有效计算量"只有全量激活的 5.5%,但通过路由机制,不同类型的输入可以激活不同的专家组合。

DeepSeek-V3 的训练成本震惊了业界:

:::warning 为什么 DeepSeek-V3 引发全球关注?

训练成本:DeepSeek 官方披露,V3 的预训练总计花费约 2048 块 H800 GPU × 2个月,折合算力成本约 557万美元

作为对比,GPT-4 的训练成本估算在 1亿美元量级,Claude 3 Opus 和 Gemini Ultra 也在相近区间。

DeepSeek-V3 用 1/20 的成本,在多个 benchmark 上达到甚至超过 GPT-4o 和 Claude 3.5 Sonnet 的水平。

这不是"用更多钱堆出来的"——而是架构创新(MLA + MoE)+ 工程优化(FP8 混合精度训练、无辅助损失的负载均衡)共同作用的结果。这一结果迫使整个行业重新思考:扩大规模(scaling)是唯一路径吗? :::

DeepSeek-V3 的另一个创新是无辅助损失的 MoE 负载均衡。传统 MoE 需要添加辅助损失(auxiliary loss)防止所有 token 路由到同一批专家,但这会干扰主任务的优化。DeepSeek-V3 引入专家偏置项(bias),在不影响损失函数的情况下实现负载均衡。

DeepSeek-R1:强化学习驱动的推理能力

DeepSeek-R1(2025 年 1 月)展示了一种不同的能力获取路径:不依赖大量人工标注,而是通过纯强化学习让模型自主发展推理能力。

核心观察:给模型一个数学问题,让它输出思维链(Chain-of-Thought),用最终答案的正确性作为奖励信号。经过足够多的 RL 训练,模型自发学会了:

  • 分步推理(step-by-step reasoning)
  • 自我反思(self-reflection):"等一下,前面的假设有问题……"
  • 回溯修正(backtracking)

这些行为没有被明确训练,而是从奖励信号中涌现出来的。R1 在 AIME 2024(美国数学邀请赛)上的通过率达到 79.8%,超过 OpenAI o1。

:::info 效率革命的深层意义

DeepSeek 的系列工作传递了三个重要信息:

  1. 架构创新仍有巨大空间:MLA 证明 KV cache 可以压缩 30 倍以上,而不损失性能
  2. 训练效率可以工程化提升:FP8 训练、通信优化等工程手段能将成本降低一个数量级
  3. 推理能力可以强化学习涌现:不需要大量人工标注的思维链数据

这三点合在一起,意味着"顶级模型只有科技巨头才能负担"的假设正在被打破。 :::


13.4 各架构设计权衡总结

关键架构参数对比

参数LLaMA-3 70BQwen2.5 72BDeepSeek-V3 671B
总参数量70B72B671B
激活参数量70B(密集)72B(密集)37B(MoE)
模型类型密集(Dense)密集(Dense)MoE
注意力机制GQAGQAMLA
Query 头数6464128
KV 头数88- (latent dim 512)
词表大小128K152K129K
上下文长度8K(base)128K128K
FFN 激活SwiGLUSwiGLUSwiGLU
位置编码RoPERoPERoPE
归一化RMSNormRMSNormRMSNorm
层数808061
隐藏维度819281927168
许可证Apache 2.0Apache 2.0MIT
训练 tokens15T+18T14.8T

密集(Dense)vs MoE 的权衡

MoE 不是免费的午餐:

维度密集模型MoE 模型
推理内存正比于总参数需加载所有专家权重
推理计算正比于总参数正比于激活参数
单请求延迟较低相近(激活参数决定)
批处理吞吐中等高(计算密度低)
训练效率简单,无路由开销需处理负载均衡
部署门槛低(单卡/少卡)高(需加载全部专家)

对于 DeepSeek-V3:虽然激活参数只有 37B,但加载完整模型仍需要约 1.3TB 的显存(FP8 精度下约 670GB)。这意味着 MoE 的推理优势主要体现在大规模在线服务场景,而非个人部署。

开源 vs 闭源的生态博弈

闭源(GPT-4o, Claude 3.5, Gemini Ultra)
优势:商业利益最大化,API 变现
劣势:生态依赖单一厂商,研究者无法复现

开源(LLaMA-3, Qwen2.5, DeepSeek-V3)
优势:建立标准,吸引生态,研究可复现
劣势:竞争对手可直接使用权重

值得注意的是:三大开源模型背后都有商业公司(Meta、阿里、深度求索),开源是战略选择而非纯粹公益。Meta 希望打破 OpenAI/Google 的闭源垄断;阿里希望通义成为云服务生态的入口;DeepSeek 的开源则是一次技术实力的全球展示。

当前架构的技术共识

经过 2023-2025 年的竞争与验证,LLM 架构已经形成高度共识:

现代 LLM=Decoder-only+GQA/MLA+RoPE+RMSNorm+SwiGLU\text{现代 LLM} = \text{Decoder-only} + \text{GQA/MLA} + \text{RoPE} + \text{RMSNorm} + \text{SwiGLU}

这五个组件几乎出现在所有主流模型中。差异主要体现在:

  • 规模策略:密集 vs MoE
  • 词表大小:多语言覆盖 vs 效率
  • 上下文长度:训练成本 vs 应用场景
  • 训练数据:质量 vs 数量

本章小结

模型家族核心创新战略定位关键数字
LLaMA开源标准化,Apache 许可生态基石,研究基础设施128K 词表,GQA 全面普及
Qwen超大词表,多语言+代码中文生态,垂直系列152K 词表,18T 训练数据
DeepSeekMLA + MoE,效率革命顶级性能,极低成本671B/37B,557万美元训练

架构横评的结论不是"谁更好",而是:不同的工程权衡服务于不同的目标。LLaMA 优化的是生态可及性,Qwen 优化的是多语言覆盖,DeepSeek 优化的是参数效率。

然而,这些模型在推理时的表现不只取决于架构,还取决于如何高效地服务这些模型。下一章,我们将转向推理系统——vLLM、SGLang 等推理框架如何通过 PagedAttention、Continuous Batching 等技术,让这些庞大的模型在实际生产环境中高效运行。