AI 簡史:從符號邏輯到千億參數大模型
AI 發展 70 年,經歷了三次浪潮、兩次寒冬,從符號主義的邏輯推演,到連接主義的神經網路,再到行為主義的強化學習,最終融合為今天的大模型時代。了解 AI 的歷史,能幫助我們看清今天大模型「智慧」的本質來源。
一、理論奠基與符號主義的誕生(1940s-1950s)
在電腦真正普及之前,先驅者們就開始思考「機器能否像人一樣思考」。這個時期的研究主要集中在腦神經的數學建模、計算理論的探討以及邏輯推理的自動化。1956 年的達特茅斯會議,正式宣告了「人工智慧」(Artificial Intelligence)作為一個獨立學科的誕生。
1.1 核心理論與里程碑事件
- 神經網路的最初設想(1943):神經生理學家沃倫·麥卡洛克(Warren McCulloch)和數學家沃爾特·皮茨(Walter Pitts)提出了 MP 神經元模型。他們首次嘗試用簡單的數學公式抽象人類大腦神經元的工作機制,證明了「神經元網路是可以計算的」,這成為了今天所有深度網路的老祖宗。
- 圖靈的終極追問(1950):電腦科學之父艾倫·圖靈(Alan Turing)發表了一篇改變歷史的論文《電腦器與智慧》,提出了著名的圖靈測試。他避開了「什麼是智慧」的哲學爭論,給出了一個務實的操作標準:如果一台機器在對話中能讓人類無法分辨它是人還是機器,它就具備了智慧。
- 學科的正式確立(1956):在達特茅斯的夏季研討會上,約翰·麥卡錫(John McCarthy)、馬文·明斯基(Marvin Minsky)等年輕學者齊聚一堂。麥卡錫在提案中首次使用了「Artificial Intelligence」這一術語,這一年因此被稱為 AI 元年。
符號主義(Symbolism)的興起
在早期的 AI 研究中,符號主義佔據了絕對的主導地位。由於當時的電腦主要依靠邏輯電路運行,學者們自然地認為:智慧的本質就是符號的推演。 只要我們把世界上的知識變成電腦能看懂的符號(如概念、規則),再用邏輯推理引擎(如 IF-THEN 規則)去處理這些符號,機器就能像人一樣思考。這是一種自上而下的路徑,高度依賴人類專家的知識輸入。
二、符號主義黃金時代與第一次 AI 浪潮(1960s-1970s)
在誕生後的最初十幾年裡,AI 迎來了一段盲目樂觀的黃金時期。研究者們相信,既然機器已經能證明數學定理,那寫出能夠解決任何人類問題的程式指日可待。
2.1 專家系統的光輝歲月
符號主義的集大成者是專家系統(Expert Systems)。透過向電腦輸入各個領域頂級專家的「經驗法則(Rule)」,系統就能在某些特定垂直領域執行高水準的診斷或決策。
| 專家系統 | 誕生年份 | 歷史意義與實際價值 |
|---|---|---|
| Dendral | 1965 年 | 首個專家系統,它能根據質譜資料推斷化學分子結構,性能比肩人類化學專家。 |
| MYCIN | 1977 年 | 用於診斷血液感染並推薦抗生素,準確率高達 69%,甚至超過了當時的許多非專業醫生。 |
| XCON | 1980 年 | 早期最成功的商用專家系統,用於幫助數位設備公司(DEC)根據客戶需求自動配置電腦系統,每年為公司節省了 4000 萬美元。 |
然而,專家系統風光的背後,隱藏著無法逾越的鴻溝。
2.2 第一次 AI 寒冬(1974-1980)
隨著時間推移,人們發現「把人類知識寫成規則」這條路越走越窄。符號主義的三大致命侷限,最終導致了研究經費被全面撤銷:
知識獲取瓶頸:有些知識人類也說不清(比如怎麼認出一隻貓),這被稱為「波蘭尼悖論」。專家系統只能硬編碼那些能被清晰表達的規則,無法自動學習。
組合爆炸 & 脆性問題:現實情況太多,窮舉極難;且缺少常識,稍微偏離規則庫系統就直接崩潰。
算力不足 & 經費斷層:當時的硬體算力根本無法支撐爆發性的邏輯推演,遭遇 DARPA 研發經費大削減。
三、專家系統(把人類經驗翻譯成程式碼的程式)與第二次 AI 浪潮(1980s)
到了 80 年代,隨著微型電腦和專業 LISP 機器的普及,專家系統再次受到商業界的追捧。日本政府甚至拋出了雄心勃勃的「第五代電腦計畫」,試圖打造能聽懂自然語言的智慧機器,引發了全球範圍內的恐慌性跟投。
3.1 商業應用的爆發與破滅
在這個時代,幾乎每家大型跨國公司都在研發自己的專家系統(一種把人類專家的經驗翻譯成成千上萬條 IF-THEN 程式碼的程式)。然而,維護這些系統變得極其折磨人。規則庫突破幾萬條後,修改一條新規則經常會導致另外十條舊規則產生衝突。隨著 80 年代末通用個人電腦(PC)效能的爆發,昂貴且封閉的專用 AI 機器變得毫無競爭力。
❄️ 第二次 AI 寒冬(1987-1993)
1987 年,AI 硬體市場徹底崩盤。「第五代電腦計畫」因為過度脫離實際硬體架構而最終爛尾。企業在專家系統上砸的錢打了水漂,AI 研究再次跌入谷底,「人工智慧」這個詞甚至在學術界成了騙經費的貶義詞。
3.2 黑暗中蟄伏的連接主義
在這兩次起伏中,其實還存在著另一套完全不同的思路——連接主義(Connectionism),也就是我們今天所說的神經網路。
連接主義早在 1958 年就由羅森布拉特(Frank Rosenblatt)以感知機(Perceptron)的形式提出。它模擬大腦透過調整神經元之間連接的權重來進行學習。與其教給機器明確的「規則」,不如給機器看大量的「例子」,讓它自己歸納。不過,1969 年明斯基在《感知機》一書中用嚴密的數學證明了當時單層網路的侷限(無法解決簡單的異或問題)。這使得連接主義在符號主義的黃金時代一直坐冷板凳。直到歷史的車輪前進到 90 年代。
四、機器學習興起與連接主義復甦(1990s-2000s)
進入 90 年代後,AI 領域出現了一個重要的務實轉向。大家不再天天談論如何實現「像人類一樣的魔法智慧」,而是把重心放在了如何利用嚴密的資料統計方法,解決現實生活中的分類和預測問題。這也就是傳統機器學習(Machine Learning)的興起。
4.1 從死板規則到「尋找數學邊界」
1997 年,雖然 IBM 的「深藍(Deep Blue)」擊敗了西洋棋世界冠軍卡斯帕羅夫,為符號主義拿下了舉世矚目的榮光,但學術界立刻意識到,這只是一次「算力+海量硬編碼」的勝利,深藍並沒有真正理解什麼是下棋。
與此同時,以支援向量機(SVM)、決策樹、隨機森林為代表的經典機器學習演算法異軍突起,成為了接下來長達十餘年的絕對主流。
如果說以前的專家系統是教電腦:「如果郵件裡包含『中獎』,那麼就是垃圾郵件」,那麼機器學習的思路就是:人類先設定好幾個核心特徵(特徵工程),比如「郵件長度」、「特殊詞彙頻率」、「發件人可信度」,然後把上萬封標註好的郵件輸入給電腦。在這個多維空間裡,支援向量機(SVM)就像是一個拿著尺子的數學家,它會利用嚴密的核函數推演,在正常的郵件和垃圾郵件之間,精準地畫出一條「最寬、最安全的數學分界線」。
儘管支援向量機在許多任務上大獲成功,但它存在一個致命弱點:特徵工程(Feature Engineering)高度依賴人類。 比如要識別一張貓的圖片,人類科學家必須教機器「先擷取邊緣」、「再尋找三角形的耳朵」,機器自己是找不出貓的樣子的!這導致了模型能力的上限被人類的認知牢牢鎖住。
4.2 反向傳播讓神經網路重見天日
深度學習的真正基礎在這個時期被打下:
在這段蟄伏期,傑弗里·辛頓(Geoffrey Hinton)等人進一步明確了反向傳播(Backpropagation)的核心價值:當多層神經網路得出錯誤預測時,能夠將這種誤差像水波一樣,一層層倒推回去,告訴每一個隱藏層的老神經元:「你在這次錯誤中到底需要承擔多大責任,下次趕緊改過來!」
這最終打破了 60 年代對神經網路的禁錮,使得具有隱藏層的網路成為可能。但由於當時資料太少,硬體太弱(連好一點的顯示卡都沒有),神經網路還無法全面戰勝 SVM 等傳統機器學習模型。直到 三大引爆點 的齊聚。
五、深度學習革命與連接主義主導(2010s)
2010 年代,隨著大資料(如 ImageNet 專案)的成熟、算力爆發(GPU 大規模應用於平行計算)以及演算法上的改良(解決梯度消失難題),「深度學習」轟轟烈烈地拉開了第三次 AI 浪潮的序幕。
什麼是深度學習與傳統機器學習的本質區別?標誌就是:特徵自動擷取(表徵學習)。 只要網路層數足夠深(幾十層到上百層),神經網路能夠直接吃進最原始的像素,它的底層自己學會了識別線條,中層學會了識別毛髮紋理,高層直接認出了這是一隻「貓」。在這場革命中,傲慢的人類終於放權,讓網路自己去尋找最重要的視覺、語音和文字特徵。
5.1 圖像與競技的全面突破
2012 年,由辛頓帶領團隊研發的 AlexNet(經典的卷積神經網路 CNN) 參加了著名的 ImageNet 圖像分類比賽。在別人還在苦苦用傳統方法擷取手工視覺特徵時,AlexNet 直接暴力降維打擊,將錯誤率從 26% 瞬間腰斬到 15.3%,震驚了整個傳統電腦視覺學界。由於這種絕對統治力,在往後的幾年裡,幾乎沒有任何一篇不使用深度學習的論文能被頂級會議錄用!
隨後幾年,AI 技術每分每秒都在狂飆:
| 突破年份 | 標誌性成就 | 深遠影響 |
|---|---|---|
| 2014 年 | GAN(生成對抗網路)提出 | 兩個網路「左右互搏」(一個造假,一個打假),讓 AI 開始具備生成驚豔且逼真圖像的能力。 |
| 2015 年 | ResNet(殘差網路)問世 | 創新性地引入「捷徑」結構,解決了網路加深後根本無法正常訓練的問題,使神經網路動輒能堆疊幾百上千層。 |
| 2016 年 | AlphaGo 擊敗李世石 | 深度學習與強化學習結合的巔峰,打破了「機器永遠下不過人類圍棋」的斷言,轟動全球。 |
行為主義(Behaviorism)與強化學習
AlphaGo 代表了另一個學派——行為主義的勝利。它認為智慧來源於主體與環境的動態互動,就像訓練一隻小狗坐下:牠做對了給獎勵,做錯了給懲罰。透過在巨大的虛擬環境中不斷自行試錯、對弈,AlphaGo 總結出了連人類頂級棋手都不曾發覺的策略。
5.2 Transformer:孕育大模型的搖籃
2017 年,一切的命運齒輪開始轉動。Google 在論文《Attention Is All You Need》中提出了一種全新的深度學習架構——Transformer。
以前處理一句話時(比如 RNN 模型),AI 只能從左到右一個一個詞看,看完了後面的容易忘了前面的。而 Transformer 的自注意力機制(Self-Attention)徹底打破了這個限制:它能讓 AI「一眼看全」整句話,並在看到「蘋果」這個詞時,自動根據上下文判斷這是指水果,還是指賈伯斯的手機公司。
它天生就適合平行計算,吃得下無限多的資料,也能夠被堆疊得無盡龐大。這一刻,大模型(LLM)的地基打完了。
六、大模型時代與通用智慧曙光(2018 至今)
當 Transformer 遇見了不計成本的瘋狂算力與海量的資料,AI 開發的歷史範式被永遠改變了。科學家們發現了一個驚人的現象:基於自注意力的架構好像永遠也「餵不飽」。以前的深度學習模型,聰明程度會遇到天花板,但 Transformer 能夠完美適配 GPU 的大規模平行計算,只要給它的資料越多、網路層數越深,它的表現就能無限提升。
6.1「預訓練+微調」範式的確立:從專才到通才
原本我們做 AI,是「一項任務配一個小模型」:做翻譯的專門訓練翻譯模型,聊天的專門訓練聊天模型,就像培養一個個只會一門手藝的「專才」。但到了 2018 年,隨著 OpenAI 的 GPT-1 和 Google 的 BERT 的發布,情況變成了「大力出奇蹟」的新範式。
首先是預訓練(Pre-training),這構成了大語言模型 99% 的核心智力。科學家們把全人類在網際網路上遺留的數萬億字的文章、名著典籍、電腦程式碼甚至百科知識,全部傾倒進龐大的 Transformer 網路裡。而給它的訓練任務,卻僅僅是簡單的「文字接龍」(預測下一個詞)。
為了能無比精準地預測人類語言中的各種「下一個詞」,模型被迫在其成千上萬億的神經元參數中,自行內化並濃縮了整個世界的運作規律!它不僅徹底掌握了主謂賓文法,知道了「蘋果」是一種紅色的水果,還能掌握「牛頓因為蘋果墜落而發現萬有引力」的背後邏輯。這就像一個孩童沒有刻意背誦過文法書,卻依靠廣泛地閱讀千萬本藏書,自動擁有了理解複雜世界的能力。
從 GPT-2(15 億參數)到 GPT-3(1750 億參數),科學家們震撼地發現了湧現能力(Emergent Abilities)——當模型足夠巨大時,量變引起了可怕的質變。即使未經任何刻意訓練,巨量參數的模型自己「悟」出了邏輯推理、程式碼編寫和上下文學習的能力。這根本不需要人類專門透過程式碼去教它。
6.2 生成式 AI 爆發與 ChatGPT 的核爆時刻
在擁有一個滿腹經綸、藏有世界常識的巨大預訓練模型後,距離打造出一個完美的個人 AI 助理還差最後一步:微調(Fine-tuning)。因為預訓練的模型只習慣盲目地做文字續寫,它聽不懂使用者的「指令」,也不知道該如何規矩地進行一問一答的互動。
2022 年 11 月,OpenAI 巧妙地引入了 RLHF(基於人類回饋的強化學習) 技術。他們僱用了大批專家,對於模型的回答進行評分和糾正。這就好比給一個極其聰慧但口無遮攔的天才,設立了明確的溝通邊界與禮儀指引,強行將其塑造成一個溫和、有條理且懂事的對話助手。於是,ChatGPT 誕生了。
一夜之間,AI 不再是枯燥的實驗室玩具,而是成為了每個普通人手中的通用智慧大腦。
隨後開啟了波瀾壯闊的多模態紀元:
- 2023 年:多重感官的打通。 以 Midjourney、Stable Diffusion 為代表的生圖模型重塑了數位藝術產業。同年發布的 GPT-4 則融合了極高難度的視覺圖像理解與長程邏輯關聯推理能力系統。
- 2024 年爆發至今:對物理世界的模擬。 隨著 Sora 等逼真影片生成模型的發布,以及即時端到端語音大模型在情感音色上的全面落地,AI 從單純處理文字,迅速張開了對包含三維空間、光影流轉甚至細膩聲調情感的完整世界的全面感知。
七、AI 三大學派的融合與未來展望
回顧這 70 年,從讓機器推理數學定理(符號主義),到尋找統計學邊界(傳統機器學習),到在試錯中下圍棋獲勝(行為主義/強化學習),再到吞噬海量資料湧現出常識的大模型(連接主義的極致型態),人工智慧的發展從未停歇。
今天的大模型看似放棄了人為編寫死板「規則」(符號主義的初衷),但事實上,它在數千層網路隱式的海量參數裡,學習並封裝了比人類邏輯還要深邃得多的「暗規則」。如今大型預訓練模型中的思維鏈(Chain of Thought)長程推理方式,何嘗不是曾經符號學派追求邏輯驗證與步驟嚴密的經典思想在神經網路中的重生?
站在大模型時代的巔峰往下看,未來的通用人工智慧(AGI)正沿著以下幾條極其廣闊且深刻的探索大道推進:
- 走向原生的統一神經中樞(原生多模態): 未來的模型不再是「文字模型+語音模型」拼接而成的科學怪人。以 GPT-4o 為代表的架構直接用同一個超級網路同時吞吐、感知且理解文字、圖像、影片串流和超低延遲的高情感三維波形語音。
- 具身智慧(Embodied AI): 當擁有極高智商的「大腦」只能被囚禁在矽基機房裡時,它就無法從物理世界驗證真理。透過與波士頓動力、人型機器人的結合,超級 AI 有望長出雙手並在摔打磨礪中習得和我們完全相同的物理客觀鐵律。
- 智慧體系統(Agentic AI): 目前大多數 LLM 依然停留在「一問一答的被動計算文字計算器」階段。而 AI Agent 時代,大模型被徹底賦予了獨立行動的權力。只要你下達一句宏觀的自然語言指令(例如「幫我調研並規劃下週去挪威看極光的所有機票、飯店並生成日曆行程」),AI Agent 將憑藉長程記憶,自主拆解下達幾十個子任務,開啟虛擬瀏覽器呼叫真實航空公司的檢索 API,完成複雜的校驗甚至比對確認。它們不再是被動等待敲擊的回聲壁,而是不知疲倦的數位勞動力集群。
在這螺旋上升的漫長技術征途中,歷史總是驚人的相似但絕不重複。我們正親歷從「向演算法死硬輸入規則」到「由機器自動定義世界法則」的最激動人心的歷史橫截面。