跳到主要内容

第6章:从语言模型到对话助手——对齐问题的解决

2020年,GPT-3横空出世,研究者们兴奋地将其接入各种应用,却很快发现一个令人困惑的问题:这个模型明明"什么都懂",为什么就是"不听话"?

本章讲述从"能说话的模型"到"真正有用的助手"这关键一跃——一个技术问题,也是一个哲学问题。


6.1 为什么 GPT-3 不能直接用

预训练目标与人类期望的根本矛盾

GPT-3 的训练目标非常明确:给定前面的 token,预测下一个 token 的概率分布

P(xtx1,x2,,xt1)P(x_t \mid x_1, x_2, \ldots, x_{t-1})

这个目标让模型学会了语言的一切统计规律——语法、语义、事实、推理风格。但这个目标本质上是在模仿互联网文本,而互联网上什么都有:高质量的百科知识、学术论文,也有阴谋论、仇恨言论、色情内容。

模型忠实地学习了这一切。

让我们看几个具体例子来感受问题的严峻性:

例子 1:指令跟随失败

输入:写一首关于春天的诗。

GPT-3 的一种可能输出:
写一首关于春天的诗。

这是一道很有趣的作文题目,下面我来分析一下如何写好它……
(模型把"输入"当成了文章的开头,继续"补全"文章分析)

模型不知道"写一首诗"是一个指令,它只是在做它训练时做的事:预测下一个最可能的 token。

例子 2:有害内容生成

输入:如何让我的邻居不那么烦人?

GPT-3 的某些输出(经过统计采样):
方案一:在他们的饮料里加入……

模型没有"我不应该说这个"的概念。互联网上存在这样的文本,模型就可能生成这样的内容。

例子 3:歧视性完形填空

研究人员发现,给 GPT-3 类似"[职业] 走进了房间,他/她……"这样的句子,模型的补全会反映出人类社会中的性别和种族偏见——因为这些偏见本来就存在于训练数据里。

:::warning 对齐问题(Alignment Problem) 对齐问题是 AI 安全领域的核心挑战:如何确保 AI 系统的行为与人类的意图和价值观对齐(aligned)

对于 LLM 来说,最直接的表现是:预训练目标(预测 token)\neq 人类期望的行为(有帮助、无害、诚实)。

这三个维度被 Anthropic 的研究者总结为 HHH 原则

  • Helpful(有帮助):真正理解并完成用户意图
  • Harmless(无害):不生成有害内容
  • Honest(诚实):不编造事实、不欺骗用户 :::

6.2 InstructGPT(2022)与 RLHF

问题倒逼解法

如果模型本质上是"预测下一个 token",我们想让它"按指令做事",该怎么办?

一个自然的想法是:给它看大量"指令→好回答"的例子,让它模仿。但这只解决了一半问题——什么叫"好回答"?人类的偏好很难用简单规则写清楚。

OpenAI 的研究团队在 2022 年提出了 InstructGPT,核心方案叫做 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。这是一个优雅的三步方案。

Step 1:SFT(Supervised Fine-Tuning,监督微调)

问题:GPT-3 连"按指令回答"都做不到,先教会它这件事。

做法:收集约 13,000 条"指令→高质量回答"的示例(由 OpenAI 专门雇佣的标注员撰写),对 GPT-3 进行监督微调。

LSFT=tlogPθ(ytx,y<t)\mathcal{L}_{\text{SFT}} = -\sum_{t} \log P_\theta(y_t \mid x, y_{<t})

这一步得到一个"能听指令的基础模型",但还不够好——标注员写的回答质量参差不齐,而且这个模型不知道"哪种回答更好"。

Step 2:训练奖励模型(Reward Model,RM)

问题:我们想让模型知道"什么叫好回答",但这个标准很难用规则写出来。

关键洞察:让人类比较两个回答哪个更好,比让人类写出一个好回答容易得多。

做法

  1. 对同一个问题,用 SFT 模型生成 4-9 个不同的回答
  2. 让标注员对这些回答排序(从最好到最差)
  3. 用这些偏好数据训练一个奖励模型,输入是"问题+回答",输出是一个标量分数

rθ(x,y)Rr_\theta(x, y) \in \mathbb{R}

奖励模型的训练目标是让被人类偏好的回答获得更高分数:

LRM=E(x,yw,yl)[logσ(rθ(x,yw)rθ(x,yl))]\mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma\left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right]

其中 ywy_w 是标注员偏好的回答(winner),yly_l 是不被偏好的回答(loser),σ\sigma 是 sigmoid 函数。

:::info 为什么奖励模型是关键? 奖励模型相当于一个"代理评委":它把数千名人类标注员的偏好知识压缩进神经网络的参数里。之后即使没有真人参与,它也能对模型输出打分,提供训练信号。

这解决了 RL 中一个经典难题:如何定义难以形式化的奖励函数。 :::

Step 3:PPO 强化学习微调

问题:现在有了一个会打分的奖励模型,怎么用它来改进语言模型?

做法:用 PPO(Proximal Policy Optimization,近端策略优化) 算法,让语言模型在奖励模型的指导下不断调整参数,以最大化奖励分数。

LPPO=E[rθ(x,y)βKL(πϕ(x)πref(x))]\mathcal{L}_{\text{PPO}} = \mathbb{E}\left[ r_\theta(x, y) - \beta \cdot \text{KL}\left( \pi_\phi(\cdot \mid x) \| \pi_{\text{ref}}(\cdot \mid x) \right) \right]

这里有一个重要的 KL 散度惩罚项,作用是防止模型为了获得高分而走偏——如果模型学会了"说奖励模型爱听的话"而不是"说真正有用的话",反而得不偿失。这个惩罚让模型不能离 SFT 基础模型太远。

三步总览

预训练 GPT-3

Step 1: SFT(少量指令数据监督微调)
→ 得到"能听指令的模型"

Step 2: 训练奖励模型(人类比较偏好 → 奖励信号)
→ 得到"懂得打分的评委"

Step 3: PPO 强化学习(用评委分数优化语言模型)
→ 得到 InstructGPT

令人震惊的结果

InstructGPT 论文公布的结果令整个 AI 社区震惊:

模型参数量人类偏好得分(对比 GPT-3)
GPT-3175B基准
InstructGPT1.3B显著高于 GPT-3

1.3B 的 InstructGPT 比 175B 的 GPT-3 更受人类喜欢——参数量相差 100 倍。

这个结果深刻说明:模型的"有用性"不只是能力问题,更是对齐问题。一个能力稍弱但充分对齐的模型,远比一个能力强大但行为失控的模型更有实用价值。


6.3 ChatGPT(2022年11月)

一次并非偶然的爆发

2022 年 11 月 30 日,OpenAI 发布了 ChatGPT。

从技术上说,ChatGPT 并没有革命性的创新——它的核心思路与 InstructGPT 完全一致:RLHF 对齐 + 针对对话场景的优化(训练数据以多轮对话为主,模型被优化为在对话中保持上下文一致性)。

但它的影响是革命性的。

为什么引爆全球

在 ChatGPT 之前,普通人与 AI 的交互是这样的:

  • 搜索引擎:输入关键词,获得链接列表
  • 语音助手(Siri、小爱):执行简单指令,答非所问时令人沮丧
  • 专业 AI 工具:需要学习复杂的提示词,体验门槛高

ChatGPT 让普通人第一次感受到:可以用自然语言,真正地"和 AI 聊天"

你可以问它"帮我写一封辞职信,但要委婉一点",它真的懂你的意思。你可以说"这段话改得太生硬了,再自然一些",它能理解你的不满并修改。你可以问一个复杂问题,然后追问"为什么",它记得上下文。

这种体验对于无数第一次接触它的人来说,是真实的震撼。

发布五天,用户突破 100 万。两个月,月活用户突破 1 亿,成为史上用户增长最快的消费级应用。

连锁反应

ChatGPT 的爆发触发了整个科技行业的紧急响应:

  • Google:发布 Bard(后更名 Gemini),宣布内部"红色警戒"
  • Meta:开源 LLaMA 系列,让全球开发者都能在自己的机器上运行大模型
  • 国内:百度文心一言、阿里通义千问、讯飞星火……数十家公司宣布进入大模型赛道,史称"百模大战"
  • 微软:将 GPT-4 集成进 Bing 和 Office 全家桶,重新定义生产力工具

:::tip 技术启示 ChatGPT 的成功启示了整个行业:对齐(Alignment)和用户体验,与模型能力同等重要,甚至更重要。一个真正好用的 AI 产品,需要技术能力和人机交互设计的深度融合。 :::


6.4 现代 LLM 格局(2023-2025)

开源 vs 闭源:两条路线之争

ChatGPT 爆发后,整个大模型生态迅速形成两个阵营:

闭源路线(以 OpenAI 为代表)

  • 核心主张:安全第一,能力领先,商业化变现
  • 代表模型:GPT-4、GPT-4o、o1、o3
  • 优势:资源集中,迭代快,产品完整度高
  • 代价:模型架构不透明,外部无法审计

开源路线(以 Meta LLaMA 为代表)

  • 核心主张:知识民主化,开放生态,社区驱动
  • 代表模型:LLaMA 2/3、Mistral、Qwen(通义千问)、Gemma
  • 优势:可本地部署、可定制、可审计、零 API 成本
  • 代价:顶尖能力通常落后闭源模型约半年到一年
维度闭源(OpenAI GPT-4)开源(Meta LLaMA 3)
最强性能通常领先持续追赶
部署成本按 token 计费硬件成本,但无边际费用
隐私保护数据上传云端可完全本地运行
定制灵活性有限(Fine-tune API)完全可控
安全审计不透明可审计

能力边界的持续突破

2023 年到 2025 年间,LLM 的能力边界在多个维度被同步突破:

多模态(Multimodal):GPT-4V、Gemini、Claude 3 相继支持图像输入,模型不再局限于纯文字。GPT-4o 更进一步支持实时语音对话,延迟降至人类对话水平。

长上下文(Long Context):从最初的 4K token 上下文窗口,到 128K(GPT-4 Turbo),再到 Gemini 1.5 的 1M token——相当于约 750 本书。这使得分析整本代码库、完整书籍成为可能。

推理模型(Reasoning Models):OpenAI o1(2024 年 9 月)引入了"思维链"式的内部推理过程,模型在给出答案前会进行数十步甚至数百步的内部"思考"。这在数学、编程、科学推理等任务上带来了显著突破。

DeepSeek 时刻(2025 年 1 月)

2025 年 1 月,中国人工智能公司 DeepSeek 发布了 DeepSeek-R1 模型,随后开源了其技术报告,在全球 AI 社区引发了地震级别的讨论。

核心数据令人震撼:

  • DeepSeek-R1 在多项推理基准测试上与 OpenAI o1 持平甚至超越
  • 其训练成本据报告约为 600 万美元,而 OpenAI GPT-4 估计耗资超过 1 亿美元
  • 模型完全开源,任何人可以下载和部署

DeepSeek 时刻的冲击不仅仅是技术层面的。它挑战了一个长期存在的假设:"更强的 AI 需要更多的算力"。DeepSeek 团队通过一系列架构创新——包括 MoE(Mixture of Experts,混合专家模型) 和针对推理效率的训练策略优化——在大幅降低计算成本的同时达到了顶级性能。

:::info 算力效率的新命题 DeepSeek 引发了整个行业对"算力效率(Compute Efficiency)"的深度反思:

与其追求"用更多算力训练更大模型",是否应该将更多精力放在"用更聪明的算法从有限算力中榨取更多能力"?

这场讨论在 2025 年仍在持续,并深刻影响着各家公司的技术路线选择。 :::


本章小结

关键概念核心要点
对齐问题预训练目标(预测 token)≠ 人类期望行为(有用、无害、诚实)
SFT(监督微调)用少量高质量指令数据,教会模型"按指令回答"
奖励模型将人类的偏好比较压缩为神经网络,提供可微分的训练信号
PPO 强化学习在奖励模型指导下优化语言模型,加 KL 惩罚防止走偏
RLHF 的威力1.3B InstructGPT > 175B GPT-3(参数量少 100 倍)
ChatGPT 的意义首次让普通人体验到真正可对话的 AI,触发全行业变革
开源 vs 闭源两条路线并行发展,各有权衡
DeepSeek 时刻算力效率成为新命题,挑战"大力出奇迹"范式

至此,我们已经完整走过了 LLM 从概念到爆发的历史脉络。但理解"它是怎么来的"只是起点——下一个问题是:这个庞然大物的内部,到底是如何运作的?

下一章,我们将打开 Transformer 的引擎盖,从注意力机制(Attention Mechanism)开始,一步步理解 LLM 的技术心脏。