大语言模型(LLM)入门指南
本书系统讲解大语言模型的完整知识体系,遵循问题驱动的叙事原则——每一项技术都是被上一个问题逼出来的。
全书结构
第一部分:历史脉络
LLM 是如何一步步被逼出来的——从传统机器学习到 ChatGPT 的七十年演进史。
第二部分:语言模型基础
Tokenization、语言建模目标、Transformer 架构的完整技术讲解。
第三部分:现代 LLM 架构
注意力机制演进(MQA/GQA/MLA)、混合专家模型(MoE)与主流模型横评。
第四部分:训练
数据工程、预训练、SFT 微调、RLHF/DPO/GRPO 对齐训练。
第五部分:推理优化
KV Cache、FlashAttention、PagedAttention、投机解码等工程优化技术。
第六部分:评测体系
主流 Benchmark 解析与评测方法论。
第七部分:应用演进
从 Chat 到 Function Call、MCP、Agent、Multi-Agent 的完整演进路径。
第八部分:挑战与前沿
幻觉、多模态、推理模型与 AGI 路线展望。
从第一章开始:起点——机器如何"学习"