Skip to content

人工智能进化史:从"逻辑"到"直觉"(交互式教程)

💡 学习指南:本章节无需编程基础,通过交互式演示带你梳理人工智能 70 年的发展脉络。从最早的下棋程序,到今天能写诗作画的 ChatGPT。我们将深入理解 AI 从"人工规则"到"机器学习"的进化历程。

AI 进化:规则 → 学习 → 生成
点击切换阶段;不自动推进,避免“点一下就连续发生很多事”的误解。
规则与逻辑推理(专家系统)
相信“智能 = 规则 + 推理”。把专家经验写成 If/Then 规则与知识库。
核心思想
  • 知识用“符号/规则”表达:If 条件 Then 结论
  • 推理引擎按规则匹配、触发、推导
  • 可解释:能指出用了哪条规则
代表应用
专家系统MYCIN逻辑推理
适合“规则明确”的任务(如部分诊断流程、合规校验),但遇到现实世界的灰度与噪声会迅速失效。
优势 / 局限
优势
  • 可解释性强
  • 在边界明确的垂直领域有效
局限
  • 规则写不完(组合爆炸)
  • 脆弱:世界稍变就失效
  • 难处理不确定性与常识

0. 引言:机器能思考吗?

1950 年,艾伦·图灵在论文《计算机器与智能》中提出了这个问题: "机器能思考吗?"

为了回答它,人类进行了长达半个多世纪的探索。我们走过弯路(试图穷举规则),也经历过寒冬(算力不足),最终在模仿人脑(神经网络)的道路上取得了突破。

AI 的进化史,就是人类探索"如何让机器拥有智能"的历史。这条探索之路经历了三个主要阶段:

  1. 符号主义:教机器"守规矩"——人工写规则
  2. 连接主义:教机器"像人脑一样思考"——神经网络学习
  3. 生成式人工智能:机器有了"创造力"——大语言模型

本教程将带你从零开始,一步步理解这些范式的演变。

20世纪50-80年代
符号主义时代
规则与逻辑推理
专家系统深蓝MYCIN
21世纪10年代
连接主义时代
神经网络与深度学习
AlexNetAlphaGo人脸识别
21世纪20年代至今
生成式人工智能时代
大模型与创造力
ChatGPTMidjourneyGPT-4

符号主义时代

20世纪50-80年代

早期人工智能研究认为,智能可以通过符号和逻辑规则来表达。科学家们尝试编写大量规则来让机器模拟人类专家的决策过程。

核心特点:
  • 人工编写 If-Then 规则
  • 逻辑推理能力强大
  • 可解释性强
  • 无法处理复杂现实世界
  • 容易遇到组合爆炸问题

1. 符号主义:教机器"守规矩"(20世纪50年代 - 80年代)

早期的 AI 科学家认为:智慧就是逻辑推理。 只要我们把世界上的所有知识都写成 If...Then... 的规则,机器就能像人一样聪明。

这被称为专家系统符号主义人工智能

1.1 什么是"基于规则"?

就像教小孩:

  • 如果看到红灯,就停下。
  • 如果下雨,就带伞。

在代码中,这表现为:

javascript
// 基于规则的 AI 示例
function decideTrafficLight(color) {
  if (color === 'red') {
    return 'stop'
  } else if (color === 'yellow') {
    return 'caution'
  } else if (color === 'green') {
    return 'go'
  }
}

1.2 专家系统的巅峰:MYCIN

1970 年代,斯坦福大学开发的 MYCIN 系统能诊断血液感染,准确率达到专家水平。

它的工作原理是:

lisp
;; MYCIN 系统的规则示例 (伪代码)
(IF
  (organism IS gram-positive)
  (morphology IS coccus)
  (growth-chains IS chains)
THEN
  (identity IS 0.7 streptococcus))

数据示例 (知识库格式)

json
// 专家系统知识库示例
{
  "rules": [
    {
      "id": "RULE-001",
      "conditions": ["traffic_light == red", "speed > 0"],
      "action": "brake",
      "priority": 1
    },
    {
      "id": "RULE-002",
      "conditions": ["weather == rainy", "visibility < 100m"],
      "action": "turn_on_lights",
      "priority": 2
    }
  ]
  // 系统按优先级依次匹配规则,遇到匹配就执行
}

1.3 交互演示:规则 vs 学习

下方的演示展示了两种方式的区别。

  • 左边 (规则):你必须显式地写代码 if (size > 6)。如果世界变了(比如苹果变小了),你的代码就失效了。
  • 右边 (学习):你不需要写规则。你只需要给机器看一堆苹果和樱桃的数据,点击 Train,它自己会"悟"出一个分界线。
规则 vs 学习:你写阈值,还是让模型从数据里“推断”阈值?
右侧允许你自己添加样本;点击“训练”只做一次计算,不会自动连着做下一步。
规则系统(手写 If/Else)
(你必须明确写出来)
5
输出
Small 🍒
if (size > 6) return 🍎 else return 🍒
当环境变化(比如“苹果平均变小了”),你需要手动改规则;规则越多,维护成本越高。
机器学习(从样本推断边界)
2🍒
3🍒
8🍎
9🍎
5
输出
Untrained / 未训练
学习到的阈值:未训练
这里的“训练”是极简示意:用样本推断一个分界点(阈值)。真实模型会用更复杂的损失函数与优化算法。

1.4 符号主义的局限性

规则看起来很完美,但现实世界太复杂了。

🎯 组合爆炸模拟器

亲手体验"规则指数增长"的恐怖

特征1 特征2 特征3
需要的规则总数
27
= 33 = 27
😐 复杂
📊 对比:人类 vs 规则系统
🧠
人类识别猫

看到 → 瞬间识别(无需列举规则)

🤖
规则系统识别猫

需要 27 条规则

💡 关键洞察

符号主义 AI 的致命弱点:现实世界的特征组合是无限的。 即使是简单的"识别猫",也需要考虑:

  • 形状:圆脸、尖脸...
  • 耳朵:立耳、折耳...
  • 毛色:黑、白、橘、花纹...
  • 体型:胖、瘦、中等...
  • 姿态:站立、趴下、跳跃...
  • ...

结论:规则永远写不完,这就是为什么我们需要机器学习

问题 1:组合爆炸

  • 试图写下"识别猫"的所有规则?不可能!
  • "有胡须"?老鼠也有。
  • "有尖耳朵"?狗也有。
  • "毛茸茸的"?兔子也是。
  • 现实世界有无限边界情况,规则永远写不完。

问题 2:无法处理不确定性

  • 如果规则冲突怎么办?
  • 如果遇到没见过的情况怎么办?
  • 规则系统很"脆弱",缺少人类常识。

⚠️ 教训:试图用有限规则描述无限现实,注定失败。这导致了 1980 年代的AI 寒冬


2. 连接主义:教机器"像人脑一样思考"(21世纪10年代至今)

既然规则写不完,不如换个思路:让机器自己学? 科学家开始模仿人脑的结构——神经元

这就是连接主义的核心思想。

2.1 人脑的启示

人脑有约 860 亿个神经元,每个神经元通过突触连接成千上万个其他神经元。

关键发现

  • 单个神经元很"笨"(只是兴奋或不兴奋)
  • 但几百亿个神经元连在一起,就产生了智能

2.2 感知机

1957 年,康奈尔大学的 Frank Rosenblatt 发明了感知机——这是最简单的人工神经元。

它的工作原理:

  1. 接收输入:从多个"突触"接收信号(x1,x2,...x_1, x_2, ...
  2. 加权求和:每个输入有对应的权重,代表重要性
  3. 激活判断:如果总和超过某个阈值(偏置),就激活(输出 1)

Output={1if (wixi)+b>00otherwiseOutput = \begin{cases} 1 & \text{if } \sum (w_i \cdot x_i) + b > 0 \\ 0 & \text{otherwise} \end{cases}

2.3 交互演示:玩转神经元

调整下方的权重偏置,看看能否控制神经元的输出。

  • 权重(ww:代表输入的"重要性"。ww 越大,这个输入对结果影响越大。
  • 偏置(bb:代表神经元的"门槛"。bb 越小,神经元越容易兴奋(输出 1)。
Input 1 (x₁)
Input 2 (x₂)
w₁: 2
w₂: -1
2.0
Bias:
Output (y)
1
Formula: (1 * 2) + (0 * -1) + 0 = 2.0
Activation: Step( 2.0 ) = 1

2.4 从单神经元到深度学习

单个神经元能做什么?只能做简单分类(比如判断"苹果还是樱桃")。

但如果把神经元分层连接:

输入层 (图片像素)

隐藏层 1 (识别边缘)

隐藏层 2 (识别形状)

隐藏层 3 (识别物体部件)

输出层 (识别物体)

这就是神经网络。当网络有很多层时,我们称之为深度学习

神经网络:手动前向传播(可控演示)
用“开始 / 上一步 / 下一步”逐层推进,不自动播放,避免误把动画当成真实训练过程。
网络结构
提示:点击某一层的神经元可以“聚焦”该层(仅用于查看,不会触发自动流程)。
每一层在做什么
当前推进到:
点击“开始”,先把输入层视为已有数据。之后每次“下一步”只推进一层,便于你观察。

2.5 神经网络是如何学习的?

不像专家系统需要人写规则,神经网络通过看数据自己学。

学习过程(反向传播)

  1. 前向传播:输入数据,得到预测结果
  2. 计算误差:对比预测和真实答案
  3. 反向传播:根据误差调整每个神经元的权重
  4. 重复:重复几百万次,直到误差足够小

🔄 反向传播演示

观察神经网络如何通过误差反向调整权重

输入层隐藏层输出层
1
前向传播
2
计算误差
3
反向传播
4
更新权重
误差: 0.9500

当前步骤: 输入数据通过各层传递,得到预测输出

数据示例 (训练数据格式)

json
// 图像分类训练数据示例
{
  "dataset": "cats_vs_dogs",
  "samples": [
    {
      "image": "cat_001.jpg",
      "label": 1,  // 1 = 猫
      "features": [0.2, 0.8, 0.5, ...]  // 提取的特征向量
    },
    {
      "image": "dog_001.jpg",
      "label": 0,  // 0 = 狗
      "features": [0.7, 0.3, 0.9, ...]
    }
  ]
  // 神经网络会自动学习:什么样的 feature 组合更可能是猫
}

2.6 连接主义的突破:2012 年 AlexNet

2012 年,AlexNet 在 ImageNet 竞赛中以压倒性优势夺冠,标志着深度学习时代的到来。

关键因素

  • 大数据:ImageNet 提供了 1400 万张标注图片
  • 大算力:GPU 的并行计算能力让训练深度网络成为可能
  • 新算法:ReLU 激活函数、Dropout 正则化等技术突破

2.7 连接主义的局限

深度学习很强大,但也不是完美的:

  • 黑盒问题:虽然能识别猫,但我们说不清"它是怎么识别的"
  • 数据饥渴:需要海量标注数据,获取成本高
  • 缺乏常识:能认猫,但不知道"猫会怕狗"

3. 生成式人工智能:机器有了"创造力"(21世纪20年代至今)

以前的 AI 主要是判别式(这是猫还是狗?)。 现在的 AI 是生成式(画一只猫!)。

这一切的背后,是 Transformer 架构的诞生。它让 AI 学会了理解上下文,学会了"举一反三"。

3.1 从"识别"到"创造"

传统深度学习(判别式模型):

  • 输入:一张图
  • 输出:这是猫(概率 98%)

生成式 AI:

  • 输入:一句话"一只戴着墨镜的猫"
  • 输出:生成一张对应的图片

🎯 判别式 vs 生成式 AI

理解两种不同的 AI 范式

🔍
判别式 AI
分类/识别
输入
cat
输出
这是猫
置信度: 98%
典型应用:
图像分类垃圾邮件过滤疾病诊断人脸识别
生成式 AI
创造/生成
输入
"一只戴墨镜的猫"
输出
generated cat
生成图像 ✓
典型应用:
ChatGPTMidjourney代码生成音乐创作
📊 核心差异对比
维度判别式 AI生成式 AI
目标区分、分类、识别创造、生成新内容
输入数据(图像、文本等)提示词、噪声、种子
输出标签、类别、概率新的数据(文本、图像等)
学习方式学习 P(标签|数据)学习 P(数据)
代表模型ResNet, BERT(分类)GPT, DALL-E, Stable Diffusion
💡 关键洞察

判别式 AI就像考试中的"选择题"——从给定选项中选出正确答案。
生成式 AI就像考试中的"简答题"——自己创造出全新的答案。

从 2020 年代开始,生成式 AI 迅速崛起,成为人工智能的主流方向。 GPT、Midjourney 等模型展现出了惊人的创造力,开启了 AI 2.0 时代。

3.2 Transformer:AI 的"瑞士军刀"

2017 年,Google 发表论文《Attention Is All You Need》(注意力机制就是你所需的全部),提出 Transformer 架构。

它的核心创新:注意力机制

原理:让模型在处理一个词时,能"关注"到句子中其他相关的词。

例如:"小明把苹果给了的母亲"

当模型处理"他"时,注意力机制会让它关注到"小明",从而理解"他"指代的是小明。

👁️ 注意力机制演示

点击词语,观察它如何"关注"句子中的其他词

小明苹果给了母亲
👆 点击句子中的任意词语开始

3.3 GPT:从文本生成到通用智能

2018 年,OpenAI 发布 GPT-1(生成式预训练变换器)。

核心思想

  1. 预训练:在海量文本上学习"预测下一个词"
  2. 微调:在特定任务上调整(比如问答、翻译)

从 GPT-1 (2018) → GPT-2 (2019) → GPT-3 (2020) → GPT-4 (2023)

  • 参数量从 1.17 亿 → 1750 亿 → 1.8 万亿(估计)
  • 能力从文本生成 → 多模态(图片、音频、视频)

🚀 GPT 进化历程

从 GPT-1 到 GPT-4 的演进之路

2018
GPT-1
📊 1.17 亿🎯 512 tokens
2019
GPT-2
📊 15 亿🎯 1024 tokens
2020
GPT-3
📊 1750 亿🎯 2048 tokens
2022
GPT-3.5
📊 未知🎯 4096 tokens
2023
GPT-4
📊 未知🎯 8192-32768 tokens
GPT-1
2018
参数量
1.17 亿
117M
上下文窗口
512 tokens
约 384 英文单词
主要能力
文本生成
📝 模型简介

OpenAI 发布的首个 GPT 模型,证明了生成式预训练的可行性。它采用"预训练 + 微调"范式,在无标注文本上学习语言模式。

🎯 关键里程碑
  • 首次验证 Transformer 架构在语言模型中的有效性
  • 引入生成式预训练方法
  • 为后续 GPT 系列奠定基础
💡 进化趋势
📈
参数量从 1.17 亿增长到万亿级别
🧠
从文本生成到多模态(图像、音频、视频)
🎯
上下文窗口从 512 tokens 扩展到 128k+
🌐
从单语言到多语言,从通用到专业领域

3.4 生成式人工智能的局限

虽然强大,但也存在问题:

  • 幻觉:一本正经地胡说八道
  • 偏见放大:从训练数据中学到人类偏见
  • 不可解释:仍然是个黑盒,不知道内部怎么运作

4. AI 范式对比总结

时代核心理念代表产物优势局限
符号主义智慧 = 规则深蓝(下棋)、MYCIN(诊断)可解释性强,逻辑清晰无法处理模糊、复杂的现实世界
连接主义智慧 = 神经网络AlphaGo、人脸识别能处理复杂模式,性能强大需要海量数据,是个"黑盒"
生成式人工智能智慧 = 通用理解ChatGPT、Midjourney能创造新内容,理解上下文幻觉、偏见、不可解释

AI 的进化趋势

  1. 从人工到自动:从人写规则 → 机器自动学习
  2. 从单一到通用:从下棋专用 → 通用人工智能
  3. 从判别到生成:从分类识别 → 创造新内容

关于大语言模型的详细原理,请移步下一章:大语言模型入门


5. 名词速查表

名词英文原文解释
符号主义Symbolic AI基于规则的人工智能。认为智能可以用逻辑规则表示。代表:专家系统、深蓝。
专家系统Expert Systems符号主义的代表产物。通过人工编写大量规则来模拟专家决策。代表:MYCIN(医疗诊断)。
连接主义Connectionism基于神经网络的人工智能。模仿人脑神经元连接结构,通过数据自动学习。
感知机Perceptron最简单的神经网络单元。接收多个输入,加权求和后通过激活函数输出。
神经网络Neural Network由多个感知机分层连接组成的模型。通过调整权重来学习数据中的模式。
深度学习Deep Learning使用多层神经网络的学习方法。能自动提取层次化特征(边缘 → 形状 → 物体)。
反向传播Backpropagation神经网络的学习算法。通过计算预测误差,反向调整每层的权重,逐步优化模型。
生成式人工智能Generative AI创造新内容的人工智能(文本、图片、音频等),而非仅仅是分类或识别。代表:ChatGPT、Midjourney。
判别式人工智能Discriminative AI用于分类的人工智能(如:这是猫还是狗?)。传统深度学习大多是判别式的。
TransformerTransformer2017 年由 Google 提出的架构,基于注意力机制。是现代大语言模型(GPT、BERT)的基础。
注意力机制Attention Mechanism让模型在处理一个元素时,能动态"关注"其他相关元素的技术。是 Transformer 的核心。
GPTGenerative Pre-trained TransformerOpenAI 的系列模型。通过"预训练 + 微调"范式,在大量文本上学习生成能力。
预训练Pre-training在大规模无标注数据上进行初步训练,学习通用知识(如语言规律)。
微调Fine-tuning在预训练模型基础上,使用特定任务的小规模数据进行调整,使模型适应具体应用。
幻觉Hallucination生成式人工智能模型"自信地编造错误内容"的现象。如 ChatGPT 编造不存在的论文或事实。
通用人工智能Artificial General Intelligence像人类一样具备多领域智能、能自主学习推理的人工智能(尚未实现)。