跳到主要内容

大语言模型(LLM)入门指南

本书系统讲解大语言模型的完整知识体系,遵循问题驱动的叙事原则——每一项技术都是被上一个问题逼出来的。


全书结构

第一部分:历史脉络

LLM 是如何一步步被逼出来的——从传统机器学习到 ChatGPT 的七十年演进史。

第二部分:语言模型基础

Tokenization、语言建模目标、Transformer 架构的完整技术讲解。

第三部分:现代 LLM 架构

注意力机制演进(MQA/GQA/MLA)、混合专家模型(MoE)与主流模型横评。

第四部分:训练

数据工程、预训练、SFT 微调、RLHF/DPO/GRPO 对齐训练。

第五部分:推理优化

KV Cache、FlashAttention、PagedAttention、投机解码等工程优化技术。

第六部分:评测体系

主流 Benchmark 解析与评测方法论。

第七部分:应用演进

从 Chat 到 Function Call、MCP、Agent、Multi-Agent 的完整演进路径。

第八部分:挑战与前沿

幻觉、多模态、推理模型与 AGI 路线展望。


从第一章开始:起点——机器如何"学习"