跳到主要内容

大语言模型（LLM）入门指南

本书系统讲解大语言模型的完整知识体系，遵循问题驱动的叙事原则——每一项技术都是被上一个问题逼出来的。

全书结构

第一部分：历史脉络

LLM 是如何一步步被逼出来的——从传统机器学习到 ChatGPT 的七十年演进史。

第二部分：语言模型基础

Tokenization、语言建模目标、Transformer 架构的完整技术讲解。

第三部分：现代 LLM 架构

注意力机制演进（MQA/GQA/MLA）、混合专家模型（MoE）与主流模型横评。

第四部分：训练

数据工程、预训练、SFT 微调、RLHF/DPO/GRPO 对齐训练。

第五部分：推理优化

KV Cache、FlashAttention、PagedAttention、投机解码等工程优化技术。

第六部分：评测体系

主流 Benchmark 解析与评测方法论。

第七部分：应用演进

从 Chat 到 Function Call、MCP、Agent、Multi-Agent 的完整演进路径。

第八部分：挑战与前沿

幻觉、多模态、推理模型与 AGI 路线展望。

从第一章开始：起点——机器如何"学习"

全书结构