Skip to main content

第1章:起点——机器如何"学习"

问题驱动:本书每一章都从一个具体问题出发。这一章的问题是:我们如何让计算机自动识别模式?

1956 年的达特茅斯会议上,一群科学家乐观地预言:只要给足够的资源,机器将在二十年内拥有人类级别的智能。

七十年后,这个梦想终于开始成真——但走的路,和当初设想的完全不同。

这一章是整本书的起点。我们将从最朴素的问题出发:机器是怎么"学习"的?在神经网络和 Transformer 出现之前,人们是如何解决智能问题的?他们遇到了什么困难?正是这些困难,一步步逼出了后来的所有技术突破。


1.1 传统机器学习的范式

问题:如何识别垃圾邮件?

假设你是 2000 年的一名工程师,老板要求你写一个垃圾邮件过滤器。

最直接的想法是写规则

如果邮件包含"免费领取"或"中奖通知",则标记为垃圾邮件
如果发件人不在联系人列表中,则提高可疑度
如果全大写字母超过 30%,则标记为垃圾邮件

这些规则有效,但很快你就遇到了麻烦:垃圾邮件发送者会绕过规则(把"free"写成"fr ee"),而你的规则库越来越庞大,越来越难以维护。

机器学习给出了不同的答案:不写规则,让机器从数据中自己找规律。

特征工程:人类的知识,机器的输入

传统机器学习的核心流程是:

原始数据 → [人工提取特征] → 特征向量 → [机器学习模型] → 预测结果

以垃圾邮件为例,一封邮件的特征向量可能是:

特征名称
是否包含"免费"1
发件人是否在联系人中0
大写字母比例0.42
邮件长度(词数)87
感叹号数量5
......

这个把原始信息转化为数字向量的过程,就叫做特征工程(Feature Engineering)。

有了特征向量,就可以喂给各种分类器:

  • 逻辑回归:学习每个特征的权重,加权求和后过一个 sigmoid 函数得到概率
  • 决策树:学习一系列"if-else"规则,构建树形判断结构
  • 支持向量机(SVM):在高维空间中找到最优分类超平面,最大化两类数据之间的间隔

:::info 支持向量机为什么曾经那么流行?

SVM 在 2000 年代是机器学习的主流选择,原因是它有坚实的数学基础(最大化间隔等价于一个凸优化问题),并且在小数据集上泛化性能好。即使训练样本只有几千个,SVM 通常也能给出不错的结果。

这在当时很关键——那个年代,标注数据非常稀缺。

:::

核心局限:人类成了瓶颈

传统机器学习在很多任务上效果不错,但隐藏着一个根本性的限制:

特征工程依赖领域专家。

对于垃圾邮件,你大概知道提取哪些特征。但对于更复杂的任务呢?

试着回答:一张图片里有猫,应该提取哪些特征?

毛发的纹理?耳朵的形状?眼睛的比例?尾巴的曲线?这些特征如何量化?如何处理猫的角度变化、光照变化、遮挡?

这里暴露出传统机器学习的根本矛盾:

  • 你需要用特征来描述世界
  • 但最有价值的特征,往往是人类说不清楚的

图像识别、语音识别、自然语言理解——这些任务的难点,恰恰不是缺乏强大的分类器,而是我们不知道应该提取什么特征

这个困境催生了一个大胆的问题:能不能让机器自己学习提取特征?


1.2 神经网络的早期尝试(1950s–1980s)

感知机:最简单的"神经元"(1957)

1957 年,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)受到生物神经元的启发,提出了感知机(Perceptron)。

一个感知机就是一个计算单元:接收多个输入,对每个输入赋予权重,求加权和,然后判断是否超过阈值:

y^={1如果 iwixi+b>00否则\hat{y} = \begin{cases} 1 & \text{如果 } \sum_i w_i x_i + b > 0 \\ 0 & \text{否则} \end{cases}

关键的突破是:权重 wiw_i 可以通过训练数据自动调整。这意味着,只要给定足够的样本,感知机能自己"学会"如何分类。

罗森布拉特当时激动地宣布,感知机将能学会识别图像、翻译语言……媒体争相报道,军方开始资助。这是第一次 AI 热潮。

现实的打击:线性不可分

1969 年,人工智能先驱马文·明斯基(Marvin Minsky)和西摩·派珀特(Seymour Papert)出版了《感知机》一书,用数学严格证明:

单层感知机无法解决线性不可分问题——连最简单的异或(XOR)函数都学不了。

x1x_1x2x_2XOR
000
011
101
110

在二维平面上,XOR 的四个点无论如何都不能用一条直线分开。单层感知机画的就是一条线,所以它做不到。

这个证明几乎终结了感知机的研究资助,神经网络进入了第一次寒冬。

多层感知机:解法是堆层

对于 XOR 问题,解决方案其实并不复杂:堆叠多层感知机(Multi-Layer Perceptron,MLP)。

输入层 → 隐藏层 1 → 隐藏层 2 → ... → 输出层

每层神经元的输出作为下一层的输入。通过非线性激活函数(比如 sigmoid σ(x)=11+ex\sigma(x) = \frac{1}{1+e^{-x}}),多层网络可以逼近任意复杂的函数——这被称为万能近似定理(Universal Approximation Theorem)。

理论上,多层网络可以解决一切问题。但实践中,立刻遇到了一个致命问题:

怎么训练它?

如果只有一层,感知机学习规则很简单:预测错了,就朝正确方向调整权重。但多层网络中间有大量隐藏层,一个错误的输出,应该怪哪个隐藏层的哪个权重?

这就是信用分配问题(Credit Assignment Problem)。

反向传播:终于能训练多层网络(1986)

1986 年,大卫·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)在《自然》杂志发表了一篇论文,提出了反向传播算法(Backpropagation)。

核心思想是链式法则(Chain Rule):

Lw1=La3a3a2a2a1a1w1\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_3} \cdot \frac{\partial a_3}{\partial a_2} \cdot \frac{\partial a_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial w_1}

损失函数对某个权重的梯度,等于从输出到该权重路径上所有偏导数的乘积。由输出层开始,逐层向后传播误差,每层都能计算出自己应该如何调整权重。

反向传播让深层网络的训练在数学上变得可行。神经网络重新获得关注,研究者们开始尝试更多层的网络。

核心局限:三座大山

然而,兴奋很快被三个现实困难浇灭:

① 梯度消失(Vanishing Gradient)

反向传播依赖链式法则连乘。sigmoid 函数的导数最大值只有 0.25,当网络超过几层时,梯度在反向传播过程中会指数级缩小——到达前面几层时,梯度几乎为零,权重几乎不更新。

网络越深,越学不动。

② 算力不足

训练一个中等规模的神经网络,在 1990 年代的 CPU 上需要数周甚至数月。而 SVM 在同样的硬件上,只需要几分钟就能给出更好的结果。

理性的研究者选择了有效的方法。

③ 数据不足

神经网络是数据饥渴型的:参数量越多,需要的训练数据越多,否则会严重过拟合。但当时互联网还未普及,标注数据极度稀缺。

:::warning 第一次 AI 寒冬的教训

1990 年代,神经网络研究经费锐减,大量研究者转向 SVM 和其他方法。这段历史告诉我们:一个正确的想法,可能会因为时代条件不成熟而沉寂多年

梯度消失问题、算力问题、数据问题——这三座大山不是神经网络本身的缺陷,而是工程条件的限制。二十年后,当 GPU、互联网大数据、以及新的训练技巧出现后,神经网络将以令人震惊的方式卷土重来。

:::


本章小结

阶段核心思路局限
传统机器学习人工设计特征 + 统计分类器特征工程依赖专家,复杂任务无从下手
单层感知机(1957)可学习的线性分类器无法处理线性不可分问题
多层感知机 + 反向传播(1986)理论上可以学习任意函数梯度消失、算力不足、数据不足

传统机器学习的失败揭示了一个深刻的洞见:

让机器理解世界,不能靠人类事先提炼好的特征。机器需要直接从原始数据中自己学习。

这个信念,在接下来二十年里几乎被遗忘。

然后,在 2012 年的一场图像识别竞赛上,一个叫 AlexNet 的神经网络以碾压性的优势拿下了冠军,错误率从 26% 骤降至 15%。深度学习时代正式到来。

下一章,我们将深入那段历史:视觉突破——卷积网络是如何攻克图像识别的。


延伸阅读

  • Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review.
  • Minsky, M., & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
  • Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536.