附录B:关键论文索引
本索引按时间顺序收录本书涉及的关键论文,供读者溯源参考。每条包含年份、标题、作者、机构及一句话贡献摘要。
1. 感知机、MLP 与反向传播(1950s–1986)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 1958 | The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain | Frank Rosenblatt | Cornell Aeronautical Laboratory | 提出感知机模型,奠定神经网络的单层线性分类基础。 |
| 1969 | Perceptrons: An Introduction to Computational Geometry | Marvin Minsky, Seymour Papert | MIT | 证明单层感知机无法解决 XOR 问题,引发第一次 AI 寒冬。 |
| 1986 | Learning Representations by Back-propagating Errors | David Rumelhart, Geoffrey Hinton, Ronald Williams | UCSD / CMU | 系统阐述反向传播算法,使多层神经网络的训练成为可能。 |
2. 卷积神经网络里程碑(1998–2015)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 1998 | Gradient-Based Learning Applied to Document Recognition | Yann LeCun et al. | Bell Labs | 提出 LeNet-5,首次将卷积网络成功应用于手写数字识别(MNIST)。 |
| 2012 | ImageNet Classification with Deep Convolutional Neural Networks | Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton | University of Toronto | AlexNet 以大幅优势赢得 ImageNet 竞赛,开启深度学习视觉革命。 |
| 2014 | Very Deep Convolutional Networks for Large-Scale Image Recognition | Karen Simonyan, Andrew Zisserman | Oxford VGG | VGGNet 证明网络深度(16–19 层)是提升视觉识别精度的关键因素。 |
| 2014 | Going Deeper with Convolutions | Christian Szegedy et al. | GoogLeNet / Inception 引入 Inception 模块,在控制参数量的同时大幅提升精度。 | |
| 2015 | Deep Residual Learning for Image Recognition | Kaiming He et al. | Microsoft Research | ResNet 引入残差连接(skip connection),使训练超过 100 层的网络成为可能。 |
3. 序列建模与注意力机制前身(1997–2015)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 1997 | Long Short-Term Memory | Sepp Hochreiter, Jürgen Schmidhuber | TU Munich | 提出 LSTM,通过门控机制解决 RNN 的梯度消失问题,使长序列建模成为可能。 |
| 2014 | Sequence to Sequence Learning with Neural Networks | Ilya Sutskever, Oriol Vinyals, Quoc Le | Google Brain | 提出 Seq2Seq 编码器-解码器框架,开创神经机器翻译范式。 |
| 2015 | Neural Machine Translation by Jointly Learning to Align and Translate | Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio | Université de Montréal | 提出 Bahdanau Attention,允许解码器动态关注输入序列不同位置,大幅提升翻译质量。 |
4. Transformer(2017)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2017 | Attention Is All You Need | Ashish Vaswani, Noam Shazeer et al. | Google Brain / Google Research | 完全抛弃 RNN,仅依赖多头自注意力机制构建 Transformer,成为现代 LLM 的核心架构。 |
5. 词向量与预训练语言模型(2013–2020)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2013 | Efficient Estimation of Word Representations in Vector Space | Tomas Mikolov et al. | Word2Vec 通过 Skip-gram / CBOW 学习密集词向量,揭示语义类比关系。 | |
| 2014 | GloVe: Global Vectors for Word Representation | Jeffrey Pennington, Richard Socher, Christopher Manning | Stanford NLP | GloVe 结合全局词共现统计与局部上下文窗口,获得更稳定的词向量。 |
| 2018 | Deep Contextualized Word Representations | Matthew Peters et al. | Allen Institute for AI | ELMo 用双向 LSTM 生成上下文相关词向量,显著提升多项 NLP 基准。 |
| 2018 | Improving Language Understanding by Generative Pre-Training | Alec Radford et al. | OpenAI | GPT-1 将 Transformer 解码器用于无监督预训练 + 有监督微调,开创 GPT 系列。 |
| 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin et al. | Google AI Language | BERT 通过掩码语言模型(MLM)实现双向预训练,刷新多项 NLP SOTA。 |
| 2019 | Language Models are Unsupervised Multitask Learners | Alec Radford et al. | OpenAI | GPT-2(1.5B)展示大规模语言模型的零样本多任务能力,引发安全讨论。 |
| 2020 | Language Models are Few-Shot Learners | Tom Brown et al. | OpenAI | GPT-3(175B)通过上下文学习(in-context learning)实现强大的少样本泛化。 |
6. RLHF 与 ChatGPT(2022)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2022 | Training Language Models to Follow Instructions with Human Feedback | Long Ouyang et al. | OpenAI | InstructGPT 提出 RLHF 流水线(SFT → RM → PPO),使语言模型更好地遵循人类指令。 |
| 2022 | ChatGPT: Optimizing Language Models for Dialogue | OpenAI | OpenAI | 将 InstructGPT 技术应用于对话场景,发布 ChatGPT,引爆全球 AI 应用浪潮。 |
7. 开源大语言模型系列(2023–2024)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2023 | LLaMA: Open and Efficient Foundation Language Models | Hugo Touvron et al. | Meta AI | LLaMA(7B–65B)以开放权重证明小模型经过充分训练可比肩大模型。 |
| 2023 | Llama 2: Open Foundation and Fine-Tuned Chat Models | Hugo Touvron et al. | Meta AI | LLaMA 2 增加 Chat 模型并公开 RLHF 训练细节,成为开源微调的主流基座。 |
| 2024 | The Llama 3 Herd of Models | Meta AI Research | Meta AI | LLaMA 3 系列(8B–405B)引入更大词表和更长上下文,全面提升多语言能力。 |
| 2023 | Mistral 7B | Albert Q. Jiang et al. | Mistral AI | Mistral 7B 采用 GQA + 滑动窗口注意力,以极高效率超越 LLaMA 2 13B。 |
| 2023 | Qwen Technical Report | Qwen Team | Alibaba Cloud | Qwen 系列(1.8B–72B)在中英双语任务上表现出色,推动中文开源 LLM 发展。 |
| 2024 | Qwen2 Technical Report | Qwen Team | Alibaba Cloud | Qwen2 扩展至 72B,强化代码与数学能力,开源版本达到业界领先水平。 |
8. FlashAttention 系列(2022–2024)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2022 | FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness | Tri Dao et al. | Stanford | FlashAttention 通过 Tiling 减少 HBM 读写,实现精确注意力的线性显存占用与 2–4× 加速。 |
| 2023 | FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning | Tri Dao | Princeton | FlashAttention-2 重新划分工作负载,GPU 利用率提升约 2×,成为主流训练框架标配。 |
| 2024 | FlashAttention-3: Fast and Accurate Attention on Hopper GPUs | Jay Shah et al. | Princeton / Nvidia | FlashAttention-3 针对 H100 Tensor Core 异步流水线优化,达到硬件峰值的 75%。 |
9. vLLM 与 PagedAttention(2023)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2023 | Efficient Memory Management for Large Language Model Serving with PagedAttention | Woosuk Kwon et al. | UC Berkeley | vLLM 借鉴操作系统分页思想管理 KV Cache,将推理吞吐量提升最高 24×。 |
10. 注意力头优化:MQA、GQA、MLA(2019–2024)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2019 | Fast Transformer Decoding: One Write-Head is All You Need | Noam Shazeer | MQA(Multi-Query Attention)所有查询共享单组 KV,大幅降低推理显存与延迟。 | |
| 2023 | GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints | Joshua Ainslie et al. | Google Research | GQA(Grouped-Query Attention)在 MHA 与 MQA 之间取得质量与效率的最佳平衡。 |
| 2024 | DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | DeepSeek Team | DeepSeek AI | 提出 MLA(Multi-head Latent Attention),通过低秩压缩 KV Cache,显存占用降低 93.3%。 |
11. 混合专家模型(MoE)(2024)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2024 | Mixtral of Experts | Albert Q. Jiang et al. | Mistral AI | Mixtral 8×7B 采用稀疏 MoE,激活参数仅 13B 却达到 70B 密集模型性能。 |
| 2024 | DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | DeepSeek Team | DeepSeek AI | DeepSeek-V2(236B/21B 激活)结合 MLA + 细粒度 MoE,以极低成本达到顶级性能。 |
| 2024 | DeepSeek-V3 Technical Report | DeepSeek Team | DeepSeek AI | DeepSeek-V3(671B/37B 激活)引入无辅助损失负载均衡与多 Token 预测,刷新开源 SOTA。 |
12. 参数高效微调:LoRA 与 QLoRA(2021–2023)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2021 | LoRA: Low-Rank Adaptation of Large Language Models | Edward Hu et al. | Microsoft | LoRA 冻结预训练权重,仅训练低秩分解矩阵,以 < 1% 参数量实现全参微调效果。 |
| 2023 | QLoRA: Efficient Finetuning of Quantized LLMs | Tim Dettmers et al. | University of Washington | QLoRA 将 LoRA 与 4-bit 量化结合,使单卡(24GB)微调 65B 模型成为可能。 |
13. 偏好对齐:DPO 与 GRPO(2023–2024)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2023 | Direct Preference Optimization: Your Language Model is Secretly a Reward Model | Rafael Rafailov et al. | Stanford | DPO 将 RLHF 中的奖励建模与策略优化合并为单一分类损失,无需显式奖励模型。 |
| 2024 | DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models | DeepSeek Team | DeepSeek AI | 提出 GRPO(Group Relative Policy Optimization),以组内相对奖励替代 Critic 网络,降低训练成本。 |
14. 推理时扩展与慢思考(2024–2025)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2024 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | DeepSeek Team | DeepSeek AI | DeepSeek-R1 通过纯 RL(GRPO)激励模型涌现出长链式思维(CoT)推理能力。 |
| 2024 | OpenAI o1 System Card | OpenAI | OpenAI | o1 系列通过推理时计算扩展("thinking tokens")在数学、编程、科学推理上达到新高度。 |
15. 提示工程与推理范式(2022–2023)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2022 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | Jason Wei et al. | Google Brain | CoT(Chain-of-Thought)通过在提示中加入推理步骤示例,大幅提升 LLM 的数学推理能力。 |
| 2022 | ReAct: Synergizing Reasoning and Acting in Language Models | Shunyu Yao et al. | Princeton / Google Brain | ReAct 将推理轨迹与工具调用交错执行,使 LLM 具备与外部环境交互的能力。 |
| 2023 | Tree of Thoughts: Deliberate Problem Solving with Large Language Models | Shunyu Yao et al. | Princeton / Google DeepMind | ToT(Tree of Thoughts)将问题求解建模为树搜索,允许模型探索和回溯多条推理路径。 |
16. 检索增强生成 RAG(2020)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2020 | Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks | Patrick Lewis et al. | Facebook AI Research | RAG 将密集检索器与 seq2seq 生成器端到端结合,使模型能访问外部知识库减少幻觉。 |
17. 规模定律(Scaling Law)(2020–2022)
| 年份 | 标题 | 作者 | 机构 | 贡献摘要 |
|---|---|---|---|---|
| 2020 | Scaling Laws for Neural Language Models | Jared Kaplan et al. | OpenAI | 发现 LLM 损失与模型参数量、数据量、计算量之间的幂律关系,指导大规模训练决策。 |
| 2022 | Training Compute-Optimal Large Language Models | Jordan Hoffmann et al. | DeepMind | Chinchilla 定律证明给定算力预算下数据量与参数量应等比扩展,纠正了此前模型过大、数据不足的训练惯例。 |
:::tip 如何使用本索引 建议结合正文阅读:每章首次引用某篇论文时会标注编号,可回到本索引查阅完整信息。大多数论文可在 arXiv 或 Semantic Scholar 免费获取。 :::