附录D：术语表

本术语表按英文首字母顺序收录本书出现的核心概念，供读者快速查阅。

A

Attention（注意力机制）：Transformer 的核心操作，通过计算查询（Query）与键（Key）的相似度来决定每个位置对其他位置的关注程度，公式为 $\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$ 。注意力机制使模型能够动态地聚焦于输入序列中的相关部分，突破了 RNN 难以捕捉长距离依赖的局限。

Autoregressive（自回归）：一种序列生成方式，每次只预测下一个 Token，将已生成的所有 Token 作为上下文继续生成，直到输出结束符号。GPT 系列模型均采用自回归方式生成文本，其优点是训练与推理目标一致，缺点是生成过程天然串行、难以并行加速。

B

Backpropagation（反向传播）：神经网络训练的核心算法，利用链式法则将损失函数对每个参数的梯度从输出层逐层传回输入层，从而指导参数更新。反向传播的计算复杂度与前向传播相同量级，是深度学习可扩展的关键基础。

BERT（Bidirectional Encoder Representations from Transformers，双向编码器表示）：Google 于 2018 年发布的预训练语言模型，采用 Masked Language Modeling 和 Next Sentence Prediction 任务进行预训练，能够同时利用左右两侧上下文，擅长文本理解类任务（分类、问答、NER 等），但不适合直接用于文本生成。

BPE（Byte Pair Encoding，字节对编码）：一种常用的子词分词算法，从字符级别出发，反复将语料中出现频率最高的相邻符号对合并为新符号，直到词表达到预设大小。BPE 能够平衡词表大小与序列长度，有效处理未登录词（OOV），是 GPT、LLaMA 等主流模型采用的分词策略。

C

Chain-of-Thought（思维链，CoT）：一种提示工程技术，通过在提示中展示"逐步推理"的示例或直接指示模型"一步步思考"，引导模型在给出最终答案之前生成中间推理过程。CoT 显著提升了模型在数学推理、逻辑推断等复杂任务上的表现，其效果随模型规模增大而更为显著。

Chinchilla Scaling Law（Chinchilla 规模定律）：DeepMind 于 2022 年提出的训练最优规模定律，指出在固定计算预算下，模型参数量与训练 Token 数应大致相等（约 $N \approx D$ ）才能达到最优性能。该定律纠正了此前"同等算力应优先增大模型"的做法，指导了后续 Mistral、LLaMA 2 等模型的训练策略。

Context Window（上下文窗口）：模型在单次推理中能够处理的最大 Token 数量，即模型的"工作记忆"上限。超出上下文窗口的内容将被截断或遗忘；扩展上下文窗口需要解决注意力计算的 $O(n^2)$ 复杂度和位置编码的外推问题。

Continuous Batching（连续批处理）：一种 LLM 推理调度策略，不等待批次中所有请求同时完成，而是在某个序列生成结束后立即将新请求填入空槽，从而保持 GPU 高利用率。与静态批处理相比，连续批处理可显著降低延迟、提升吞吐量，是 vLLM、TGI 等推理引擎的核心优化之一。

Cross-Attention（交叉注意力）：注意力机制的一种变体，查询（Q）来自一个序列（如解码器），而键（K）和值（V）来自另一个序列（如编码器的输出），用于将两个不同序列的信息融合。在编码器-解码器架构（如机器翻译模型 T5）中，交叉注意力负责让解码器"参考"编码器的语义表示。

D

DPO（Direct Preference Optimization，直接偏好优化）：一种无需显式训练奖励模型的对齐算法，通过对比"被偏好回答"与"被拒绝回答"的对数概率比来直接优化策略模型，将 RLHF 的两阶段过程简化为一次监督学习。DPO 训练更稳定、超参数更少，已成为 RLHF 的重要替代方案。

E

Embedding（嵌入）：将离散符号（Token、词、句子）映射到连续高维向量空间的过程或结果。词嵌入使语义相近的词在向量空间中距离更近，是神经语言模型处理文本的基础表示形式；在 Transformer 中，每个 Token 首先被映射为维度为 $d_\text{model}$ 的嵌入向量。

F

Fine-tuning / SFT（微调 / 监督微调）：在预训练模型基础上，用特定任务数据继续训练以适配目标场景的过程。SFT（Supervised Fine-Tuning）特指使用人工标注的"指令-回复"对数据进行微调，是将基座模型转变为对话/指令跟随模型的关键步骤，也是 RLHF 流程的第一阶段。

FlashAttention：一种 IO 感知的注意力算法，通过分块（tiling）计算避免将完整的 $N \times N$ 注意力矩阵写回 HBM，将注意力计算的显存占用从 $O(N^2)$ 降至 $O(N)$ ，同时显著加速计算。FlashAttention 是当前主流推理和训练框架（vLLM、PyTorch 2.x 等）的标准组件。

Function Call（函数调用 / 工具调用）：LLM 在生成过程中输出结构化的函数调用请求（函数名 + 参数 JSON），由外部系统执行后将结果返回模型继续生成的能力。Function Call 是构建 AI Agent 的核心机制，使模型能够与外部 API、数据库、代码执行环境等工具交互。

G

GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）：OpenAI 发布的自回归语言模型系列，采用仅含解码器的 Transformer 架构，以下一词预测为预训练目标。GPT-3 展示了大规模语言模型的涌现能力，ChatGPT/GPT-4 则通过 RLHF 对齐进一步推动了 LLM 的广泛应用。

GQA / MQA / MLA：三种减少 KV Cache 显存的注意力头分组策略。MQA（Multi-Query Attention，多查询注意力）所有查询头共享同一组 KV 头；GQA（Grouped-Query Attention，分组查询注意力）将查询头分成若干组、每组共享一对 KV 头，在质量与效率间取得平衡（LLaMA 2/3 采用）；MLA（Multi-head Latent Attention，多头潜在注意力）是 DeepSeek 提出的低秩压缩变体，进一步降低 KV Cache 规模。

Gradient Vanishing（梯度消失）：在深层神经网络反向传播时，梯度在逐层传递过程中因连乘小于 1 的值而指数级衰减，导致浅层参数几乎无法更新的现象。ResNet 的残差连接、Transformer 的 Pre-LN 归一化等技术是缓解梯度消失的常用方法。

H

Hallucination（幻觉）：LLM 以自信的语气生成与事实不符、逻辑矛盾或凭空捏造的内容的现象。幻觉源于模型对训练分布的统计拟合而非真正的"知识存储"，是当前 LLM 可靠性的核心挑战，RAG 和工具调用是缓解幻觉的常见工程手段。

HBM（High Bandwidth Memory，高带宽显存）：集成于 GPU/TPU 上的高速 DRAM，带宽可达数 TB/s，远高于普通 DRAM。LLM 推理的性能瓶颈往往不在计算而在 HBM 带宽（称为"memory-bound"），因此减少 HBM 读写次数（如 FlashAttention、量化）是推理优化的核心方向。

I

In-context Learning（上下文学习，ICL）：无需更新模型参数，仅通过在提示中提供少量示例（Few-shot）或任务描述（Zero-shot），使模型理解并完成新任务的能力。ICL 是大规模预训练的涌现能力之一，被认为是 LLM 灵活性的核心来源。

K

KV Cache（键值缓存）：在自回归生成过程中，将已计算过的注意力键（Key）和值（Value）缓存起来，避免在生成每个新 Token 时重复计算历史位置的 KV 值。KV Cache 是 LLM 推理加速的基础优化，但随序列长度增长，其显存占用也线性增加，是长上下文推理的主要瓶颈。

L

LLM（Large Language Model，大语言模型）：参数量通常在数十亿以上、在大规模文本语料上预训练的语言模型。LLM 展现出语义理解、推理、代码生成、多语言翻译等广泛能力，以 GPT-4、Claude、LLaMA、Gemini 等为代表。

LoRA / QLoRA（Low-Rank Adaptation / Quantized LoRA，低秩适配 / 量化低秩适配）：参数高效微调方法。LoRA 在原权重矩阵旁添加低秩分解矩阵 $\Delta W = AB$ （ $A \in \mathbb{R}^{d \times r}, B \in \mathbb{R}^{r \times k}, r \ll \min(d,k)$ ），仅训练 $A, B$ 而冻结原权重，大幅减少可训练参数量。QLoRA 进一步将基座模型量化为 4-bit 存储，使消费级 GPU 也能微调大模型。

M

MCP（Model Context Protocol，模型上下文协议）：Anthropic 提出的开放标准协议，定义了 LLM 应用与外部工具/数据源之间的标准化交互接口，使 AI 助手能够以统一方式连接文件系统、数据库、API 等异构资源，类似于 AI 领域的"USB 接口"。

MoE（Mixture of Experts，混合专家模型）：一种稀疏激活的模型架构，将 FFN 层替换为多个"专家"子网络，每个 Token 由路由器（Router）动态选择少数几个专家处理，从而在参数总量远大于稠密模型的情况下保持近似的推理计算量。Mixtral、DeepSeek-V2/V3 等模型采用 MoE 架构，实现了参数效率与模型能力的双重提升。

P

PagedAttention（分页注意力）：vLLM 提出的 KV Cache 管理算法，借鉴操作系统虚拟内存的分页思想，将 KV Cache 划分为固定大小的物理块（Block），通过块表（Block Table）映射实现非连续内存分配，消除显存碎片，使 GPU 显存利用率接近 100%，是 vLLM 高吞吐量推理的核心创新。

Perplexity（困惑度，PPL）：衡量语言模型对测试集预测能力的指标，定义为测试集上平均每个 Token 负对数概率的指数： $\text{PPL} = \exp\!\left(-\frac{1}{N}\sum_{i=1}^{N}\log p(x_i \mid x_{<i})\right)$ 。困惑度越低表示模型对语言的建模越准确；困惑度与模型规模和训练数据量均呈负相关。

R

RAG（Retrieval-Augmented Generation，检索增强生成）：一种将外部知识库检索与语言模型生成相结合的架构，在生成回答前先从向量数据库中检索相关文档片段，将其拼入提示上下文，从而提供模型训练时未见的最新知识并减少幻觉。RAG 是目前企业知识库问答的主流方案。

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）：一种对齐训练范式，通过收集人类对模型输出的偏好标注、训练奖励模型，再用 PPO 等 RL 算法优化语言模型以最大化奖励。RLHF 是 InstructGPT、ChatGPT 等对话模型遵循指令、减少有害输出的关键技术。

RoPE（Rotary Position Embedding，旋转位置编码）：一种相对位置编码方案，通过对 Query 和 Key 向量施加与位置相关的旋转变换，使注意力分数自然包含相对位置信息。RoPE 无需额外参数，且具有良好的外推性（可通过 YaRN 等方法扩展到训练时未见的序列长度），已被 LLaMA、Mistral、Qwen 等主流模型广泛采用。

S

Scaling Law（规模定律）：描述模型性能（通常以损失衡量）随参数量 $N$ 、训练数据量 $D$ 、计算量 $C$ 变化而呈现出幂律关系的经验规律，由 OpenAI Kaplan 等人（2020）和 DeepMind Chinchilla（2022）团队系统研究。规模定律为大模型训练的资源分配提供了定量指导，是推动 LLM 规模持续扩大的理论基础。

Self-Attention（自注意力）：注意力机制中 Q、K、V 均来自同一序列的特殊情形，允许序列中的每个位置直接关注其他所有位置，从而建模序列内的全局依赖关系。Transformer 的每一层均由多头自注意力（Multi-Head Self-Attention）和前馈网络（FFN）组成。

SFT：见 Fine-tuning / SFT。

Speculative Decoding（投机解码）：一种加速自回归生成的技术，用一个小型"草稿模型"快速生成多个候选 Token，再由大型"验证模型"并行验证，接受与自回归分布一致的前缀并拒绝不符的部分。在验证批次大部分被接受时，可将生成速度提升 2–4 倍，同时保证与原始大模型完全等价的输出分布。

T

Temperature / Top-p / Top-k（温度 / 核采样 / Top-k 采样）：控制 LLM 生成多样性的采样超参数。Temperature $T$ 缩放 logits： $T < 1$ 使分布更尖锐（输出更保守）， $T > 1$ 使分布更平坦（输出更多样）。Top-k 只从概率最高的 $k$ 个 Token 中采样。Top-p（核采样）从累积概率超过 $p$ 的最小 Token 集合中采样，动态调整候选集大小。

Token / Tokenization（词元 / 分词）：Token 是 LLM 处理文本的基本单位，可以是单词、子词或字符片段；Tokenization 是将原始文本切分为 Token 序列的过程。英文文本平均约 0.75 个词对应 1 个 Token，中文每个汉字通常对应 1–2 个 Token。分词算法（BPE、SentencePiece 等）的选择直接影响模型的词表大小和处理效率。

Transformer：Vaswani 等人于 2017 年提出的序列建模架构，完全基于注意力机制，放弃了 RNN 的递归结构。标准 Transformer 由编码器和解码器两部分组成，每部分均由多头注意力、前馈网络和残差归一化层堆叠而成。Transformer 对序列的并行处理能力使其能够充分利用现代 GPU，是几乎所有 LLM 的基础架构。

Z

Zero-shot / Few-shot（零样本 / 少样本）：描述模型在推理时利用上下文示例数量的术语。Zero-shot 指不提供任何任务示例，仅通过自然语言描述让模型完成任务；Few-shot 指在提示中提供少量（通常 1–8 个）"输入-输出"示例对，引导模型理解任务格式和期望行为。两者均无需微调模型参数，是 In-context Learning 的典型应用形式。

:::tip 使用建议本术语表中的概念相互关联，建议结合正文对应章节阅读。例如，理解 KV Cache 需要先掌握 Attention 和 Autoregressive；理解 RLHF 则需要了解 SFT 和 DPO 的对比背景。 :::

A​

B​

C​

D​

E​

F​

G​

H​

I​

K​

L​

M​

P​

R​

S​

T​

Z​

A

B

C

D

E

F

G

H

I

K

L

M

P

R

S

T

Z