AI 简史：从符号逻辑到千亿参数大模型

AI 发展 70 年，经历了三次浪潮、两次寒冬，从符号主义的逻辑推演，到连接主义的神经网络，再到行为主义的强化学习，最终融合为今天的大模型时代。了解 AI 的历史，能帮助我们看清今天大模型"智能"的本质来源。

理论奠基

1940s-50s

第一次浪潮

1960s-70s

❄️ 寒冬 I

1974-80

第二次浪潮

1980s

❄️ 寒冬 II

1987-93

ML 崛起

1990s-2000s

深度学习

2010s

大模型时代

2018+

技术浪潮❄️ AI 寒冬大模型时代

📜符号主义

智能 = 符号推理 / If-Then 规则

代表：专家系统、深蓝

→ 与连接主义融合（神经符号 AI）

🧠连接主义

智能 = 神经元网络 + 海量数据

代表：AlphaGo、GPT 系列

→ 主导大模型时代，当前主流

🎮行为主义

智能 = 与环境互动 / 强化学习

代表：AlphaGo（RL 部分）

→ 与连接主义融合（深度强化学习）

一、理论奠基与符号主义的诞生（1940s-1950s）

在计算机真正普及之前，先驱者们就开始思考"机器能否像人一样思考"。这个时期的研究主要集中在脑神经的数学建模、计算理论的探讨以及逻辑推理的自动化。1956 年的达特茅斯会议，正式宣告了"人工智能"（Artificial Intelligence）作为一个独立学科的诞生。

符号主义的核心思路 ── 把知识写成规则

IF  体温 > 38.5°C  AND  白细胞计数 > 11000
THEN  诊断 = "细菌感染"
IF  诊断 = "细菌感染"  AND  对青霉素不过敏
THEN  治疗方案 = "青霉素 400mg / 每日两次"
// 早期医疗专家系统（MYCIN，1977）就是由 450+ 条这样的规则组成的

人类专家把经验翻译成一条条 IF-THEN 规则，机器逐条匹配执行

1.1 核心理论与里程碑事件

神经网络的最初设想（1943）：神经生理学家沃伦·麦卡洛克（Warren McCulloch）和数学家沃尔特·皮茨（Walter Pitts）提出了 MP 神经元模型。他们首次尝试用简单的数学公式抽象人类大脑神经元的工作机制，证明了"神经元网络是可以计算的"，这成为了今天所有深度网络的老祖宗。
图灵的终极追问（1950）：计算机科学之父艾伦·图灵（Alan Turing）发表了一篇改变历史的论文《计算机器与智能》，提出了著名的图灵测试。他避开了"什么是智能"的哲学争论，给出了一个务实的操作标准：如果一台机器在对话中能让人类无法分辨它是人还是机器，它就具备了智能。
学科的正式确立（1956）：在达特茅斯的夏季研讨会上，约翰·麦卡锡（John McCarthy）、马文·明斯基（Marvin Minsky）等年轻学者齐聚一堂。麦卡锡在提案中首次使用了"Artificial Intelligence"这一术语，这一年因此被称为 AI 元年。

符号主义（Symbolism）的兴起

在早期的 AI 研究中，符号主义占据了绝对的主导地位。由于当时的计算机主要依靠逻辑电路运行，学者们自然地认为：智能的本质就是符号的推演。只要我们把世界上的知识变成计算机能看懂的符号（如概念、规则），再用逻辑推理引擎（如 IF-THEN 规则）去处理这些符号，机器就能像人一样思考。这是一种自上而下的路径，高度依赖人类专家的知识输入。

二、符号主义黄金时代与第一次 AI 浪潮（1960s-1970s）

在诞生后的最初十几年里，AI 迎来了一段盲目乐观的黄金时期。研究者们相信，既然机器已经能证明数学定理，那写出能够解决任何人类问题的程序指日可待。

2.1 专家系统的光辉岁月

符号主义的集大成者是专家系统（Expert Systems）。通过向计算机输入各个领域顶级专家的"经验法则（Rule）"，系统就能在某些特定垂直领域执行高水平的诊断或决策。

专家系统	诞生年份	历史意义与实际价值
Dendral	1965 年	首个专家系统，它能根据质谱数据推断化学分子结构，性能比肩人类化学专家。
MYCIN	1977 年	用于诊断血液感染并推荐抗生素，准确率高达 69%，甚至超过了当时的许多非专业医生。
XCON	1980 年	早期最成功的商用专家系统，用于帮助数字设备公司（DEC）根据客户需求自动配置计算机系统，每年为公司节省了 4000 万美元。

然而，专家系统风光的背后，隐藏着无法逾越的鸿沟。

2.2 第一次 AI 寒冬（1974-1980）

随着时间推移，人们发现"把人类知识写成规则"这条路越走越窄。符号主义的三大致命局限，最终导致了研究经费被全面撤销：

知识获取瓶颈：有些知识人类也说不清（比如怎么认出一只猫），这被称为"波兰尼悖论"。专家系统只能硬编码那些能被清晰表达的规则，无法自动学习。

组合爆炸 & 脆性问题：现实情况太多，穷举极难；且缺少常识，稍微偏离规则库系统就直接崩溃。

算力不足 & 经费断层：当时的硬件算力根本无法支撑爆发性的逻辑推演，遭遇 DARPA 研发经费大削减。

三、专家系统（把人类经验翻译成代码的程序）与第二次 AI 浪潮（1980s）

到了 80 年代，随着微型计算机和专业 LISP 机器的普及，专家系统再次受到商业界的追捧。日本政府甚至抛出了雄心勃勃的"第五代计算机计划"，试图打造能听懂自然语言的智能机器，引发了全球范围内的恐慌性跟投。

3.1 商业应用的爆发与破灭

在这个时代，几乎每家大型跨国公司都在研发自己的专家系统（一种把人类专家的经验翻译成成千上万条 IF-THEN 代码的程序）。然而，维护这些系统变得极其折磨人。规则库突破几万条后，修改一条新规则经常会导致另外十条旧规则产生冲突。随着 80 年代末通用个人电脑（PC）性能的爆发，昂贵且封闭的专用 AI 机器变得毫无竞争力。

❄️ 第二次 AI 寒冬（1987-1993）

1987 年，AI 硬件市场彻底崩盘。"第五代计算机计划"因为过度脱离实际硬件架构而最终烂尾。企业在专家系统上砸的钱打了水漂，AI 研究再次跌入底谷，"人工智能"这个词甚至在学术界成了骗经费的贬义词。

3.2 黑暗中蛰伏的连接主义

在这两次起伏中，其实还存在着另一套完全不同的思路——连接主义（Connectionism），也就是我们今天所说的神经网络。

1特征 x₁

0特征 x₂

→×0.6

→×0.4

0.3

偏置 -0.3

→

sum > 0 ?

→

1激活

① 输入特征 ② 乘以权重（重要性） ③ 求和 + 偏置 ④ 超过阈值就激活输出 1，否则输出 0

连接主义早在 1958 年就由罗森布拉特（Frank Rosenblatt）以感知机（Perceptron）的形式提出。它模拟大脑通过调整神经元之间连接的权重来进行学习。与其教给机器明确的"规则"，不如给机器看大量的"例子"，让它自己归纳。不过，1969 年明斯基在《感知机》一书中用严密的数学证明了当时单层网络的局限（无法解决简单的异或问题）。这使得连接主义在符号主义的黄金时代一直坐冷板凳。直到历史的车轮前进到 90 年代。

四、机器学习兴起与连接主义复苏（1990s-2000s）

进入 90 年代后，AI 领域出现了一个重要的务实转向。大家不再天天谈论如何实现"像人类一样的魔法智能"，而是把重心放在了如何利用严密的数据统计方法，解决现实生活中的分类和预测问题。这也就是传统机器学习（Machine Learning）的兴起。

4.1 从死板规则到"寻找数学边界"

1997 年，虽然 IBM 的"深蓝（Deep Blue）"击败了国际象棋世界冠军卡斯帕罗夫，为符号主义拿下了举世瞩目的荣光，但学术界立刻意识到，这只是一次"算力+海量硬编码"的胜利，深蓝并没有真正理解什么是下棋。

与此同时，以支持向量机（SVM）、决策树、随机森林为代表的经典机器学习算法异军突起，成为了接下来长达十余年的绝对主流。

如果说以前的专家系统是教电脑："如果邮件里包含'中奖'，那么就是垃圾邮件"，那么机器学习的思路就是：人类先设定好几个核心特征（特征工程），比如"邮件长度"、"特殊词汇频率"、"发件人可信度"，然后把上万封标注好的邮件输入给电脑。在这个多维空间里，支持向量机（SVM）就像是一个拿着尺子的数学家，它会利用严密的核函数推演，在正常的邮件和垃圾邮件之间，精准地画出一条"最宽、最安全的数学分界线"。

尽管支持向量机在许多任务上大获成功，但它存在一个致命弱点：特征工程（Feature Engineering）高度依赖人类。 比如要识别一张猫的图片，人类科学家必须教机器"先提取边缘"、"再寻找三角形的耳朵"，机器自己是找不出猫的样子的！这导致了模型能力的上限被人类的认知牢牢锁住。

4.2 反向传播让神经网络重见天日

深度学习的真正基础在这个时期被打下：

➡️

前向传播

数据流过网络，得出预测

📐

计算误差

预测值 vs 正确答案，算 Loss

⬅️

反向传播

逐层追溯每个权重的"责任"

⚙️

更新权重

按责任微调，减少下次误差

Loss（误差）随训练轮次下降：

在这段蛰伏期，杰弗里·辛顿（Geoffrey Hinton）等人进一步明确了反向传播（Backpropagation）的核心价值：当多层神经网络得出错误预测时，能够将这种误差像水波一样，一层层倒推回去，告诉每一个隐藏层的老神经元："你在这次错误中到底需要承担多大责任，下次赶紧改过来！"

这最终打破了 60 年代对神经网络的禁锢，使得具有隐藏层的网络成为可能。但由于当时数据太少，硬件太弱（连好点的显卡都没有），神经网络还无法全面战胜 SVM 等传统机器学习模型。直到 三大引爆点 的齐聚。

五、深度学习革命与连接主义主导（2010s）

2010 年代，随着大数据（如 ImageNet 项目）的成熟、算力爆发（GPU 大规模应用于并行计算）以及算法上的改良（解决梯度消失难题），"深度学习"轰轰烈烈地拉开了第三次 AI 浪潮的序幕。

什么是深度学习与传统机器学习的本质区别？标志就是：特征自动提取（表征学习）。 只要网络层数足够深（几十层到上百层），神经网络能够直接吃进最原始的像素，它的底层自己学会了识别线条，中层学会了识别毛发纹理，高层直接认出了这是一只"猫"。在这场革命中，傲慢的人类终于放权，让网络自己去寻找最重要的视觉、语音和文本特征。

5.1 图像与竞技的全面突破

2012 年，由辛顿带领团队研发的 AlexNet（经典的卷积神经网络 CNN） 参加了著名的 ImageNet 图像分类比赛。在别人还在苦苦用传统方法提取手工视觉特征时，AlexNet 直接暴力降维打击，将错误率从 26% 瞬间腰斩到 15.3%，震惊了整个传统计算机视觉学界。由于这种绝对统治力，在往后的几年里，几乎没有任何一篇不使用深度学习的论文能被顶级会议录用！

随后几年，AI 技术每分每秒都在狂飙：

输入层

原始像素 / 数值信号

隐藏层（可叠加多层）

底层识别边缘 → 中层识别形状 → 高层识别语义概念

输出层

最终分类或预测结果

突破年份	标志性成就	深远影响
2014 年	GAN（生成对抗网络）提出	两个网络"左右互搏"（一个造假，一个打假），让 AI 开始具备生成惊艳且逼真图像的能力。
2015 年	ResNet（残差网络）问世	创新性地引入"捷径"结构，解决了网络加深后根本无法正常训练的问题，使神经网络动辄能堆叠几百上千层。
2016 年	AlphaGo 击败李世石	深度学习与强化学习结合的巅峰，打破了"机器永远下不过人类围棋"的断言，轰动全球。

行为主义（Behaviorism）与强化学习

AlphaGo 代表了另一个学派——行为主义的胜利。它认为智能来源于主体与环境的动态交互，就像训练一只小狗坐下：它做对了给奖励，做错了给惩罚。通过在巨大的虚拟环境中不断自行试错、对弈，AlphaGo 总结出了连人类顶级棋手都不曾发觉的策略。

5.2 Transformer：孕育大模型的摇篮

2017 年，一切的命运齿轮开始转动。Google 在论文《Attention Is All You Need》中提出了一种全新的深度学习架构——Transformer。

处理「他」时的注意力分配：

小明把苹果给了他的母亲

小明

65%

把

苹果

10%

给了

10%

他

的

母亲

「他」虽在句中间，模型却把 65% 注意力精准投向句首的「小明」，跨越距离识别代词指代

以前处理一句话时（比如 RNN 模型），AI 只能从左到右一个个词看，看完了后面的容易忘了前面的。而 Transformer 的自注意力机制（Self-Attention）彻底打破了这个限制：它能让 AI"一眼看全"整句话，并在看到"苹果"这个词时，自动根据上下文判断这是指水果，还是指乔布斯的手机公司。

它天生就适合并行计算，吃得下无限多的数据，也能够被堆叠得无尽庞大。这一刻，大模型（LLM）的地基打完了。

六、大模型时代与通用智能曙光（2018 至今）

当 Transformer 遇见了不计成本的疯狂算力与海量的数据，AI 开发的历史范式被永远改变了。科学家们发现了一个惊人的现象：基于自注意力的架构好像永远也"喂不饱"。以前的深度学习模型，聪明程度会遇到天花板，但 Transformer 能够完美适配 GPU 的大规模并行计算，只要给它的数据越多、网络层数越深，它的表现就能无限提升。

6.1"预训练+微调"范式的确立：从专才到通才

原本我们做 AI，是"一项任务配一个小模型"：做翻译的专门训练翻译模型，聊天的专门训练聊天模型，就像培养一个个只会一门手艺的"专才"。但到了 2018 年，随着 OpenAI 的 GPT-1 和 Google 的 BERT 的发布，情况变成了"大力出奇迹"的新范式。

首先是预训练（Pre-training），这构成了大语言模型 99% 的核心智力。科学家们把全人类在互联网上遗留的数万亿字的文章、名著典籍、计算机代码甚至百科知识，全部倾倒进庞大的 Transformer 网络里。而给它的训练任务，却仅仅是简单的"文字接龙"（预测下一个词）。

为了能无比精准地预测人类语言中的各种"下一个词"，模型被迫在其成百上千亿的神经元参数中，自行内化并浓缩了整个世界的运作规律！它不仅彻底掌握了主谓宾语法，知道了"苹果"是一种红色的水果，还能掌握"牛顿因为苹果坠落而发现万有引力"的背后逻辑。这就像一个孩童没有刻意背诵过语法书，却依靠广泛地阅读千万本藏书，自动拥有了理解复杂世界的能力。

GPT-12018

1.17 亿

预训练+微调范式确立

GPT-22019

15 亿

Zero-shot 零样本泛化

GPT-32020

1750 亿

⚡ 涌现！上下文学习

GPT-42023

~1.8 万亿

多模态 + 复杂推理

从 GPT-2（15亿参数）到 GPT-3（1750亿参数），科学家们震撼地发现了涌现能力（Emergent Abilities）——当模型足够巨大时，量变引起了可怕的质变。即使未经任何刻意训练，巨量参数的模型自己"悟"出了逻辑推理、代码编写和上下文学习的能力。这根本不需要人类专门通过代码去教它。

6.2 生成式 AI 爆发与 ChatGPT 的核爆时刻

在拥有了一个满腹经纶、藏有世界常识的巨大预训练模型后，距离打造出一个完美的个人 AI 助理还差最后一步：微调（Fine-tuning）。因为预训练的模型只习惯盲目地做文字续写，它听懂使用者的"指令"，也不知道该如何规矩地进行一问一答的交互。

2022 年 11 月，OpenAI 巧妙地引入了 RLHF（基于人类反馈的强化学习） 技术。他们雇佣了大批专家，对于模型的回答进行打分和纠正。这就好比给一个极其聪慧但口无遮拦的天才，设立了明确的沟通边界与礼仪指引，强行将其塑造成了一个温和、有条理且懂事的对话助手。于是，ChatGPT 诞生了。

一夜之间，AI 不再是枯燥的实验室玩具，而是成为了每个普通人手中的通用智慧大脑。

随后开启了波澜壮阔的多模态纪元：

2023 年：多重感官的打通。 以 Midjourney、Stable Diffusion 为代表的生图模型重塑了数字艺术产业。同年发布的 GPT-4 则融合了极高难度的视觉图像理解与长程逻辑关联推理能力系统。
2024 年爆发至今：对物理世界的模拟。 随着 Sora 等逼真视频生成模型的发布，以及实时端到端语音大模型在情感音色上的全面落地，AI 从单纯处理文本，迅速张开了对包含三维空间、光影流转甚至细腻声调情感的完整世界的全面感知。

七、AI 三大学派的融合与未来展望

回顾这70年，从让机器推理数学定理（符号主义），到寻找统计学边界（传统机器学习），到在试错中下围棋获胜（行为主义/强化学习），再到吞噬海量数据涌现出常识的大模型（连接主义的极致形态），人工智能的发展从未停歇。

今天的大模型看似放弃了人为编写死板"规则"（符号主义的初衷），但事实上，它在数千层网络隐式的海量参数里，学习并封装了比人类逻辑还要深邃得多的"暗规则"。如今大型预训练模型中的思维链（Chain of Thought）长程推理方式，何尝不是曾经符号学派追求逻辑验证与步骤严密的经典思想在神经网络中的重生？

站在大模型时代的巅峰往下看，未来的通用人工智能（AGI）正沿着以下几条极其广阔且深刻的探索大道推进：

走向原生的统一神经中枢（原生多模态）： 未来的模型不再是"文本模型+语音模型"拼接而成的弗兰肯斯坦。以 GPT-4o 为代表的架构直接用同一个超级网络同时吞吐、感知且理解文本、图像、视频流和超低延迟的高情感三维波形语音。
具身智能（Embodied AI）： 当拥有极高智商的"大脑"只能被囚禁在硅基机房里时，它就无法从物理世界验证真理。通过与波士顿动力、人型机器人的结合，超级 AI 有望长出双手并在摔打磨砺中习得和我们完全相同的物理客观铁律。
智能体系统（Agentic AI）： 目前大多数 LLM 依然停留在"一问一答的被动计算文字计算器"阶段。而 AI Agent 时代，大模型被彻底赋予了独立行动的权力。只要你下达一句宏观的自然语言指令（例如"帮我调研并规划下周去挪威看极光的所有机票、酒店并生成日历日程"），AI Agent 将凭借长程记忆，自主拆解下达几十个子任务，打开虚拟浏览器调用真实航空公司的检索 API，完成复杂的校验甚至比对确认。它们不再是被动等待敲击的回声壁，而是不知疲倦的数字劳动力集群。

在这螺旋上升的漫长技术征途中，历史总是惊人的相似但绝不重复。我们正亲历从"向算法死硬输入规则"到"由机器自动定义世界法则"的最激动人心的历史横截面。

🌟 AI 发展阶段与核心范式全景对比

📜

规则系统时代

1960s - 1980s

驱动方式

人类硬编码知识

核心机制

If-Then 逻辑推演

典型代表

Dendral深蓝 (Deep Blue)

📊

传统机器学习

1990s - 2000s

驱动方式

人工特征工程 + 统计学

核心机制

寻找数学决策边界

典型代表

支持向量机 (SVM)随机森林

🧠

深度学习革命

2010s

驱动方式

大数据 + 算力爬升

核心机制

神经网络自动提取特征

典型代表

AlexNet (CNN)AlphaGo (RL)

💬

大语言模型 (LLM)

2018 - 至今

驱动方式

海量无标注数据 + 暴力计算

核心机制

预测下一个词 + 涌现常识

典型代表

GPT-4Claude 3

🤖

智能体 (Agentic AI)

现在 - 未来

驱动方式

大模型大脑 + 环境感知

核心机制

自主规划 + 工具调用

典型代表

AI 程序员具身智能

AI 简史：从符号逻辑到千亿参数大模型 ​

一、理论奠基与符号主义的诞生（1940s-1950s） ​

1.1 核心理论与里程碑事件 ​

二、符号主义黄金时代与第一次 AI 浪潮（1960s-1970s） ​

2.1 专家系统的光辉岁月 ​

2.2 第一次 AI 寒冬（1974-1980） ​

三、专家系统（把人类经验翻译成代码的程序）与第二次 AI 浪潮（1980s） ​

3.1 商业应用的爆发与破灭 ​

3.2 黑暗中蛰伏的连接主义 ​

四、机器学习兴起与连接主义复苏（1990s-2000s） ​

4.1 从死板规则到"寻找数学边界" ​

4.2 反向传播让神经网络重见天日 ​

五、深度学习革命与连接主义主导（2010s） ​

5.1 图像与竞技的全面突破 ​

5.2 Transformer：孕育大模型的摇篮 ​

六、大模型时代与通用智能曙光（2018 至今） ​

6.1"预训练+微调"范式的确立：从专才到通才 ​

6.2 生成式 AI 爆发与 ChatGPT 的核爆时刻 ​

七、AI 三大学派的融合与未来展望 ​

AI 简史：从符号逻辑到千亿参数大模型

一、理论奠基与符号主义的诞生（1940s-1950s）

1.1 核心理论与里程碑事件

二、符号主义黄金时代与第一次 AI 浪潮（1960s-1970s）

2.1 专家系统的光辉岁月

2.2 第一次 AI 寒冬（1974-1980）

三、专家系统（把人类经验翻译成代码的程序）与第二次 AI 浪潮（1980s）

3.1 商业应用的爆发与破灭

3.2 黑暗中蛰伏的连接主义

四、机器学习兴起与连接主义复苏（1990s-2000s）

4.1 从死板规则到"寻找数学边界"

4.2 反向传播让神经网络重见天日

五、深度学习革命与连接主义主导（2010s）

5.1 图像与竞技的全面突破

5.2 Transformer：孕育大模型的摇篮

六、大模型时代与通用智能曙光（2018 至今）

6.1"预训练+微调"范式的确立：从专才到通才

6.2 生成式 AI 爆发与 ChatGPT 的核爆时刻

七、AI 三大学派的融合与未来展望