跳到主要内容

附录B：关键论文索引

本索引按时间顺序收录本书涉及的关键论文，供读者溯源参考。每条包含年份、标题、作者、机构及一句话贡献摘要。

1. 感知机、MLP 与反向传播（1950s–1986）

年份	标题	作者	机构	贡献摘要
1958	The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain	Frank Rosenblatt	Cornell Aeronautical Laboratory	提出感知机模型，奠定神经网络的单层线性分类基础。
1969	Perceptrons: An Introduction to Computational Geometry	Marvin Minsky, Seymour Papert	MIT	证明单层感知机无法解决 XOR 问题，引发第一次 AI 寒冬。
1986	Learning Representations by Back-propagating Errors	David Rumelhart, Geoffrey Hinton, Ronald Williams	UCSD / CMU	系统阐述反向传播算法，使多层神经网络的训练成为可能。

2. 卷积神经网络里程碑（1998–2015）

年份	标题	作者	机构	贡献摘要
1998	Gradient-Based Learning Applied to Document Recognition	Yann LeCun et al.	Bell Labs	提出 LeNet-5，首次将卷积网络成功应用于手写数字识别（MNIST）。
2012	ImageNet Classification with Deep Convolutional Neural Networks	Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton	University of Toronto	AlexNet 以大幅优势赢得 ImageNet 竞赛，开启深度学习视觉革命。
2014	Very Deep Convolutional Networks for Large-Scale Image Recognition	Karen Simonyan, Andrew Zisserman	Oxford VGG	VGGNet 证明网络深度（16–19 层）是提升视觉识别精度的关键因素。
2014	Going Deeper with Convolutions	Christian Szegedy et al.	Google	GoogLeNet / Inception 引入 Inception 模块，在控制参数量的同时大幅提升精度。
2015	Deep Residual Learning for Image Recognition	Kaiming He et al.	Microsoft Research	ResNet 引入残差连接（skip connection），使训练超过 100 层的网络成为可能。

3. 序列建模与注意力机制前身（1997–2015）

年份	标题	作者	机构	贡献摘要
1997	Long Short-Term Memory	Sepp Hochreiter, Jürgen Schmidhuber	TU Munich	提出 LSTM，通过门控机制解决 RNN 的梯度消失问题，使长序列建模成为可能。
2014	Sequence to Sequence Learning with Neural Networks	Ilya Sutskever, Oriol Vinyals, Quoc Le	Google Brain	提出 Seq2Seq 编码器-解码器框架，开创神经机器翻译范式。
2015	Neural Machine Translation by Jointly Learning to Align and Translate	Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio	Université de Montréal	提出 Bahdanau Attention，允许解码器动态关注输入序列不同位置，大幅提升翻译质量。

4. Transformer（2017）

年份	标题	作者	机构	贡献摘要
2017	Attention Is All You Need	Ashish Vaswani, Noam Shazeer et al.	Google Brain / Google Research	完全抛弃 RNN，仅依赖多头自注意力机制构建 Transformer，成为现代 LLM 的核心架构。

5. 词向量与预训练语言模型（2013–2020）

年份	标题	作者	机构	贡献摘要
2013	Efficient Estimation of Word Representations in Vector Space	Tomas Mikolov et al.	Google	Word2Vec 通过 Skip-gram / CBOW 学习密集词向量，揭示语义类比关系。
2014	GloVe: Global Vectors for Word Representation	Jeffrey Pennington, Richard Socher, Christopher Manning	Stanford NLP	GloVe 结合全局词共现统计与局部上下文窗口，获得更稳定的词向量。
2018	Deep Contextualized Word Representations	Matthew Peters et al.	Allen Institute for AI	ELMo 用双向 LSTM 生成上下文相关词向量，显著提升多项 NLP 基准。
2018	Improving Language Understanding by Generative Pre-Training	Alec Radford et al.	OpenAI	GPT-1 将 Transformer 解码器用于无监督预训练 + 有监督微调，开创 GPT 系列。
2018	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	Jacob Devlin et al.	Google AI Language	BERT 通过掩码语言模型（MLM）实现双向预训练，刷新多项 NLP SOTA。
2019	Language Models are Unsupervised Multitask Learners	Alec Radford et al.	OpenAI	GPT-2（1.5B）展示大规模语言模型的零样本多任务能力，引发安全讨论。
2020	Language Models are Few-Shot Learners	Tom Brown et al.	OpenAI	GPT-3（175B）通过上下文学习（in-context learning）实现强大的少样本泛化。

6. RLHF 与 ChatGPT（2022）

年份	标题	作者	机构	贡献摘要
2022	Training Language Models to Follow Instructions with Human Feedback	Long Ouyang et al.	OpenAI	InstructGPT 提出 RLHF 流水线（SFT → RM → PPO），使语言模型更好地遵循人类指令。
2022	ChatGPT: Optimizing Language Models for Dialogue	OpenAI	OpenAI	将 InstructGPT 技术应用于对话场景，发布 ChatGPT，引爆全球 AI 应用浪潮。

7. 开源大语言模型系列（2023–2024）

年份	标题	作者	机构	贡献摘要
2023	LLaMA: Open and Efficient Foundation Language Models	Hugo Touvron et al.	Meta AI	LLaMA（7B–65B）以开放权重证明小模型经过充分训练可比肩大模型。
2023	Llama 2: Open Foundation and Fine-Tuned Chat Models	Hugo Touvron et al.	Meta AI	LLaMA 2 增加 Chat 模型并公开 RLHF 训练细节，成为开源微调的主流基座。
2024	The Llama 3 Herd of Models	Meta AI Research	Meta AI	LLaMA 3 系列（8B–405B）引入更大词表和更长上下文，全面提升多语言能力。
2023	Mistral 7B	Albert Q. Jiang et al.	Mistral AI	Mistral 7B 采用 GQA + 滑动窗口注意力，以极高效率超越 LLaMA 2 13B。
2023	Qwen Technical Report	Qwen Team	Alibaba Cloud	Qwen 系列（1.8B–72B）在中英双语任务上表现出色，推动中文开源 LLM 发展。
2024	Qwen2 Technical Report	Qwen Team	Alibaba Cloud	Qwen2 扩展至 72B，强化代码与数学能力，开源版本达到业界领先水平。

8. FlashAttention 系列（2022–2024）

年份	标题	作者	机构	贡献摘要
2022	FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness	Tri Dao et al.	Stanford	FlashAttention 通过 Tiling 减少 HBM 读写，实现精确注意力的线性显存占用与 2–4× 加速。
2023	FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning	Tri Dao	Princeton	FlashAttention-2 重新划分工作负载，GPU 利用率提升约 2×，成为主流训练框架标配。
2024	FlashAttention-3: Fast and Accurate Attention on Hopper GPUs	Jay Shah et al.	Princeton / Nvidia	FlashAttention-3 针对 H100 Tensor Core 异步流水线优化，达到硬件峰值的 75%。

9. vLLM 与 PagedAttention（2023）

年份	标题	作者	机构	贡献摘要
2023	Efficient Memory Management for Large Language Model Serving with PagedAttention	Woosuk Kwon et al.	UC Berkeley	vLLM 借鉴操作系统分页思想管理 KV Cache，将推理吞吐量提升最高 24×。

10. 注意力头优化：MQA、GQA、MLA（2019–2024）

年份	标题	作者	机构	贡献摘要
2019	Fast Transformer Decoding: One Write-Head is All You Need	Noam Shazeer	Google	MQA（Multi-Query Attention）所有查询共享单组 KV，大幅降低推理显存与延迟。
2023	GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints	Joshua Ainslie et al.	Google Research	GQA（Grouped-Query Attention）在 MHA 与 MQA 之间取得质量与效率的最佳平衡。
2024	DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model	DeepSeek Team	DeepSeek AI	提出 MLA（Multi-head Latent Attention），通过低秩压缩 KV Cache，显存占用降低 93.3%。

11. 混合专家模型（MoE）（2024）

年份	标题	作者	机构	贡献摘要
2024	Mixtral of Experts	Albert Q. Jiang et al.	Mistral AI	Mixtral 8×7B 采用稀疏 MoE，激活参数仅 13B 却达到 70B 密集模型性能。
2024	DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model	DeepSeek Team	DeepSeek AI	DeepSeek-V2（236B/21B 激活）结合 MLA + 细粒度 MoE，以极低成本达到顶级性能。
2024	DeepSeek-V3 Technical Report	DeepSeek Team	DeepSeek AI	DeepSeek-V3（671B/37B 激活）引入无辅助损失负载均衡与多 Token 预测，刷新开源 SOTA。

12. 参数高效微调：LoRA 与 QLoRA（2021–2023）

年份	标题	作者	机构	贡献摘要
2021	LoRA: Low-Rank Adaptation of Large Language Models	Edward Hu et al.	Microsoft	LoRA 冻结预训练权重，仅训练低秩分解矩阵，以 < 1% 参数量实现全参微调效果。
2023	QLoRA: Efficient Finetuning of Quantized LLMs	Tim Dettmers et al.	University of Washington	QLoRA 将 LoRA 与 4-bit 量化结合，使单卡（24GB）微调 65B 模型成为可能。

13. 偏好对齐：DPO 与 GRPO（2023–2024）

年份	标题	作者	机构	贡献摘要
2023	Direct Preference Optimization: Your Language Model is Secretly a Reward Model	Rafael Rafailov et al.	Stanford	DPO 将 RLHF 中的奖励建模与策略优化合并为单一分类损失，无需显式奖励模型。
2024	DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models	DeepSeek Team	DeepSeek AI	提出 GRPO（Group Relative Policy Optimization），以组内相对奖励替代 Critic 网络，降低训练成本。

14. 推理时扩展与慢思考（2024–2025）

年份	标题	作者	机构	贡献摘要
2024	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning	DeepSeek Team	DeepSeek AI	DeepSeek-R1 通过纯 RL（GRPO）激励模型涌现出长链式思维（CoT）推理能力。
2024	OpenAI o1 System Card	OpenAI	OpenAI	o1 系列通过推理时计算扩展（"thinking tokens"）在数学、编程、科学推理上达到新高度。

15. 提示工程与推理范式（2022–2023）

年份	标题	作者	机构	贡献摘要
2022	Chain-of-Thought Prompting Elicits Reasoning in Large Language Models	Jason Wei et al.	Google Brain	CoT（Chain-of-Thought）通过在提示中加入推理步骤示例，大幅提升 LLM 的数学推理能力。
2022	ReAct: Synergizing Reasoning and Acting in Language Models	Shunyu Yao et al.	Princeton / Google Brain	ReAct 将推理轨迹与工具调用交错执行，使 LLM 具备与外部环境交互的能力。
2023	Tree of Thoughts: Deliberate Problem Solving with Large Language Models	Shunyu Yao et al.	Princeton / Google DeepMind	ToT（Tree of Thoughts）将问题求解建模为树搜索，允许模型探索和回溯多条推理路径。

16. 检索增强生成 RAG（2020）

年份	标题	作者	机构	贡献摘要
2020	Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks	Patrick Lewis et al.	Facebook AI Research	RAG 将密集检索器与 seq2seq 生成器端到端结合，使模型能访问外部知识库减少幻觉。

17. 规模定律（Scaling Law）（2020–2022）

年份	标题	作者	机构	贡献摘要
2020	Scaling Laws for Neural Language Models	Jared Kaplan et al.	OpenAI	发现 LLM 损失与模型参数量、数据量、计算量之间的幂律关系，指导大规模训练决策。
2022	Training Compute-Optimal Large Language Models	Jordan Hoffmann et al.	DeepMind	Chinchilla 定律证明给定算力预算下数据量与参数量应等比扩展，纠正了此前模型过大、数据不足的训练惯例。

:::tip 如何使用本索引建议结合正文阅读：每章首次引用某篇论文时会标注编号，可回到本索引查阅完整信息。大多数论文可在 arXiv 或 Semantic Scholar 免费获取。 :::

1. 感知机、MLP 与反向传播（1950s–1986）
2. 卷积神经网络里程碑（1998–2015）
3. 序列建模与注意力机制前身（1997–2015）
4. Transformer（2017）
5. 词向量与预训练语言模型（2013–2020）
6. RLHF 与 ChatGPT（2022）
7. 开源大语言模型系列（2023–2024）
8. FlashAttention 系列（2022–2024）
9. vLLM 与 PagedAttention（2023）
10. 注意力头优化：MQA、GQA、MLA（2019–2024）
11. 混合专家模型（MoE）（2024）
12. 参数高效微调：LoRA 与 QLoRA（2021–2023）
13. 偏好对齐：DPO 与 GRPO（2023–2024）
14. 推理时扩展与慢思考（2024–2025）
15. 提示工程与推理范式（2022–2023）
16. 检索增强生成 RAG（2020）
17. 规模定律（Scaling Law）（2020–2022）