跳到主要内容

附录B:关键论文索引

本索引按时间顺序收录本书涉及的关键论文,供读者溯源参考。每条包含年份、标题、作者、机构及一句话贡献摘要。


1. 感知机、MLP 与反向传播(1950s–1986)

年份标题作者机构贡献摘要
1958The Perceptron: A Probabilistic Model for Information Storage and Organization in the BrainFrank RosenblattCornell Aeronautical Laboratory提出感知机模型,奠定神经网络的单层线性分类基础。
1969Perceptrons: An Introduction to Computational GeometryMarvin Minsky, Seymour PapertMIT证明单层感知机无法解决 XOR 问题,引发第一次 AI 寒冬。
1986Learning Representations by Back-propagating ErrorsDavid Rumelhart, Geoffrey Hinton, Ronald WilliamsUCSD / CMU系统阐述反向传播算法,使多层神经网络的训练成为可能。

2. 卷积神经网络里程碑(1998–2015)

年份标题作者机构贡献摘要
1998Gradient-Based Learning Applied to Document RecognitionYann LeCun et al.Bell Labs提出 LeNet-5,首次将卷积网络成功应用于手写数字识别(MNIST)。
2012ImageNet Classification with Deep Convolutional Neural NetworksAlex Krizhevsky, Ilya Sutskever, Geoffrey HintonUniversity of TorontoAlexNet 以大幅优势赢得 ImageNet 竞赛,开启深度学习视觉革命。
2014Very Deep Convolutional Networks for Large-Scale Image RecognitionKaren Simonyan, Andrew ZissermanOxford VGGVGGNet 证明网络深度(16–19 层)是提升视觉识别精度的关键因素。
2014Going Deeper with ConvolutionsChristian Szegedy et al.GoogleGoogLeNet / Inception 引入 Inception 模块,在控制参数量的同时大幅提升精度。
2015Deep Residual Learning for Image RecognitionKaiming He et al.Microsoft ResearchResNet 引入残差连接(skip connection),使训练超过 100 层的网络成为可能。

3. 序列建模与注意力机制前身(1997–2015)

年份标题作者机构贡献摘要
1997Long Short-Term MemorySepp Hochreiter, Jürgen SchmidhuberTU Munich提出 LSTM,通过门控机制解决 RNN 的梯度消失问题,使长序列建模成为可能。
2014Sequence to Sequence Learning with Neural NetworksIlya Sutskever, Oriol Vinyals, Quoc LeGoogle Brain提出 Seq2Seq 编码器-解码器框架,开创神经机器翻译范式。
2015Neural Machine Translation by Jointly Learning to Align and TranslateDzmitry Bahdanau, Kyunghyun Cho, Yoshua BengioUniversité de Montréal提出 Bahdanau Attention,允许解码器动态关注输入序列不同位置,大幅提升翻译质量。

4. Transformer(2017)

年份标题作者机构贡献摘要
2017Attention Is All You NeedAshish Vaswani, Noam Shazeer et al.Google Brain / Google Research完全抛弃 RNN,仅依赖多头自注意力机制构建 Transformer,成为现代 LLM 的核心架构。

5. 词向量与预训练语言模型(2013–2020)

年份标题作者机构贡献摘要
2013Efficient Estimation of Word Representations in Vector SpaceTomas Mikolov et al.GoogleWord2Vec 通过 Skip-gram / CBOW 学习密集词向量,揭示语义类比关系。
2014GloVe: Global Vectors for Word RepresentationJeffrey Pennington, Richard Socher, Christopher ManningStanford NLPGloVe 结合全局词共现统计与局部上下文窗口,获得更稳定的词向量。
2018Deep Contextualized Word RepresentationsMatthew Peters et al.Allen Institute for AIELMo 用双向 LSTM 生成上下文相关词向量,显著提升多项 NLP 基准。
2018Improving Language Understanding by Generative Pre-TrainingAlec Radford et al.OpenAIGPT-1 将 Transformer 解码器用于无监督预训练 + 有监督微调,开创 GPT 系列。
2018BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingJacob Devlin et al.Google AI LanguageBERT 通过掩码语言模型(MLM)实现双向预训练,刷新多项 NLP SOTA。
2019Language Models are Unsupervised Multitask LearnersAlec Radford et al.OpenAIGPT-2(1.5B)展示大规模语言模型的零样本多任务能力,引发安全讨论。
2020Language Models are Few-Shot LearnersTom Brown et al.OpenAIGPT-3(175B)通过上下文学习(in-context learning)实现强大的少样本泛化。

6. RLHF 与 ChatGPT(2022)

年份标题作者机构贡献摘要
2022Training Language Models to Follow Instructions with Human FeedbackLong Ouyang et al.OpenAIInstructGPT 提出 RLHF 流水线(SFT → RM → PPO),使语言模型更好地遵循人类指令。
2022ChatGPT: Optimizing Language Models for DialogueOpenAIOpenAI将 InstructGPT 技术应用于对话场景,发布 ChatGPT,引爆全球 AI 应用浪潮。

7. 开源大语言模型系列(2023–2024)

年份标题作者机构贡献摘要
2023LLaMA: Open and Efficient Foundation Language ModelsHugo Touvron et al.Meta AILLaMA(7B–65B)以开放权重证明小模型经过充分训练可比肩大模型。
2023Llama 2: Open Foundation and Fine-Tuned Chat ModelsHugo Touvron et al.Meta AILLaMA 2 增加 Chat 模型并公开 RLHF 训练细节,成为开源微调的主流基座。
2024The Llama 3 Herd of ModelsMeta AI ResearchMeta AILLaMA 3 系列(8B–405B)引入更大词表和更长上下文,全面提升多语言能力。
2023Mistral 7BAlbert Q. Jiang et al.Mistral AIMistral 7B 采用 GQA + 滑动窗口注意力,以极高效率超越 LLaMA 2 13B。
2023Qwen Technical ReportQwen TeamAlibaba CloudQwen 系列(1.8B–72B)在中英双语任务上表现出色,推动中文开源 LLM 发展。
2024Qwen2 Technical ReportQwen TeamAlibaba CloudQwen2 扩展至 72B,强化代码与数学能力,开源版本达到业界领先水平。

8. FlashAttention 系列(2022–2024)

年份标题作者机构贡献摘要
2022FlashAttention: Fast and Memory-Efficient Exact Attention with IO-AwarenessTri Dao et al.StanfordFlashAttention 通过 Tiling 减少 HBM 读写,实现精确注意力的线性显存占用与 2–4× 加速。
2023FlashAttention-2: Faster Attention with Better Parallelism and Work PartitioningTri DaoPrincetonFlashAttention-2 重新划分工作负载,GPU 利用率提升约 2×,成为主流训练框架标配。
2024FlashAttention-3: Fast and Accurate Attention on Hopper GPUsJay Shah et al.Princeton / NvidiaFlashAttention-3 针对 H100 Tensor Core 异步流水线优化,达到硬件峰值的 75%。

9. vLLM 与 PagedAttention(2023)

年份标题作者机构贡献摘要
2023Efficient Memory Management for Large Language Model Serving with PagedAttentionWoosuk Kwon et al.UC BerkeleyvLLM 借鉴操作系统分页思想管理 KV Cache,将推理吞吐量提升最高 24×。

10. 注意力头优化:MQA、GQA、MLA(2019–2024)

年份标题作者机构贡献摘要
2019Fast Transformer Decoding: One Write-Head is All You NeedNoam ShazeerGoogleMQA(Multi-Query Attention)所有查询共享单组 KV,大幅降低推理显存与延迟。
2023GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsJoshua Ainslie et al.Google ResearchGQA(Grouped-Query Attention)在 MHA 与 MQA 之间取得质量与效率的最佳平衡。
2024DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek TeamDeepSeek AI提出 MLA(Multi-head Latent Attention),通过低秩压缩 KV Cache,显存占用降低 93.3%。

11. 混合专家模型(MoE)(2024)

年份标题作者机构贡献摘要
2024Mixtral of ExpertsAlbert Q. Jiang et al.Mistral AIMixtral 8×7B 采用稀疏 MoE,激活参数仅 13B 却达到 70B 密集模型性能。
2024DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek TeamDeepSeek AIDeepSeek-V2(236B/21B 激活)结合 MLA + 细粒度 MoE,以极低成本达到顶级性能。
2024DeepSeek-V3 Technical ReportDeepSeek TeamDeepSeek AIDeepSeek-V3(671B/37B 激活)引入无辅助损失负载均衡与多 Token 预测,刷新开源 SOTA。

12. 参数高效微调:LoRA 与 QLoRA(2021–2023)

年份标题作者机构贡献摘要
2021LoRA: Low-Rank Adaptation of Large Language ModelsEdward Hu et al.MicrosoftLoRA 冻结预训练权重,仅训练低秩分解矩阵,以 < 1% 参数量实现全参微调效果。
2023QLoRA: Efficient Finetuning of Quantized LLMsTim Dettmers et al.University of WashingtonQLoRA 将 LoRA 与 4-bit 量化结合,使单卡(24GB)微调 65B 模型成为可能。

13. 偏好对齐:DPO 与 GRPO(2023–2024)

年份标题作者机构贡献摘要
2023Direct Preference Optimization: Your Language Model is Secretly a Reward ModelRafael Rafailov et al.StanfordDPO 将 RLHF 中的奖励建模与策略优化合并为单一分类损失,无需显式奖励模型。
2024DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsDeepSeek TeamDeepSeek AI提出 GRPO(Group Relative Policy Optimization),以组内相对奖励替代 Critic 网络,降低训练成本。

14. 推理时扩展与慢思考(2024–2025)

年份标题作者机构贡献摘要
2024DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningDeepSeek TeamDeepSeek AIDeepSeek-R1 通过纯 RL(GRPO)激励模型涌现出长链式思维(CoT)推理能力。
2024OpenAI o1 System CardOpenAIOpenAIo1 系列通过推理时计算扩展("thinking tokens")在数学、编程、科学推理上达到新高度。

15. 提示工程与推理范式(2022–2023)

年份标题作者机构贡献摘要
2022Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsJason Wei et al.Google BrainCoT(Chain-of-Thought)通过在提示中加入推理步骤示例,大幅提升 LLM 的数学推理能力。
2022ReAct: Synergizing Reasoning and Acting in Language ModelsShunyu Yao et al.Princeton / Google BrainReAct 将推理轨迹与工具调用交错执行,使 LLM 具备与外部环境交互的能力。
2023Tree of Thoughts: Deliberate Problem Solving with Large Language ModelsShunyu Yao et al.Princeton / Google DeepMindToT(Tree of Thoughts)将问题求解建模为树搜索,允许模型探索和回溯多条推理路径。

16. 检索增强生成 RAG(2020)

年份标题作者机构贡献摘要
2020Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksPatrick Lewis et al.Facebook AI ResearchRAG 将密集检索器与 seq2seq 生成器端到端结合,使模型能访问外部知识库减少幻觉。

17. 规模定律(Scaling Law)(2020–2022)

年份标题作者机构贡献摘要
2020Scaling Laws for Neural Language ModelsJared Kaplan et al.OpenAI发现 LLM 损失与模型参数量、数据量、计算量之间的幂律关系,指导大规模训练决策。
2022Training Compute-Optimal Large Language ModelsJordan Hoffmann et al.DeepMindChinchilla 定律证明给定算力预算下数据量与参数量应等比扩展,纠正了此前模型过大、数据不足的训练惯例。

:::tip 如何使用本索引 建议结合正文阅读:每章首次引用某篇论文时会标注编号,可回到本索引查阅完整信息。大多数论文可在 arXivSemantic Scholar 免费获取。 :::