AI 能力詞典
隨著生成式 AI 技術在各類產品和業務場景中的廣泛落地,一個越來越現實的問題擺在每個我們面前: 到底有哪些 AI 能力可以用? 在具體的需求裡,又 該選擇哪一種能力、哪一類模型或哪一個產品來承載?
面對這種困惑,最直觀的做法或許是 “臨時抱佛腳”:遇到需求再搜索市面上雲服務廠商的產品 API,或者是對應模型,搜索市面上的商業級解決方案對照文檔與 Demo進行處理 。看到圖片需求就想到圖像生成,碰到文本任務就找來大模型,涉及語音交互就想起 ASR 和 TTS,再在海量 API 與服務中貨比三家。然而,把零散的產品堆在一起,與在企業級場景中系統性地規劃、選型和組合 AI 能力,是兩件截然不同的事情。僅靠臨時查資料與經驗判斷,會帶來能力認知碎片化、方案設計隨意、能力複用困難等一系列嚴峻挑戰。
為了解決這些痛點,本文以“AI 能力全景圖”為核心的整理思路應運而生。在這本手冊裡,我們想做的不是堆名詞,而是幫你快速搞清楚三件事:"這件事可以用什麼 AI 能力做?大概該選哪一類模型或產品?接下來用哪些關鍵詞去找 API、項目或服務來試?" 通過從模態(文字、圖像、音頻、視頻、3D、多模態)到架構層(模型、檢索、Agent、平臺工程)的系統梳理, 我們可以為每一類典型需求和場景找到對應的 AI 能力、代表性模型/產品,以及在真實業務中的常見用途 ,幫助團隊以更低試錯成本、更高決策效率和更強可複用性來建設 AI 體系。
在本篇手冊中,我們將系統介紹當下主流的 AI 能力版圖,從單一模態到多模態融合、從單點模型到平臺與工程的整體框架,結合常見產品形態與應用場景,給出面向實踐的能力選型參考。
由於 內容較多 ,你可以在實踐過程中遇到場景不知道如何選型的問題再查閱手冊尋找參考;推薦你根據具體應用方向,讓 AI 參考該手冊,給出可參考的模型選型建議、方案 API 調用建議即可。
如果你只想瞭解對應的類別,不想看具體內容,只需要看每個大章節的初始段內容即可,例如 1.1 、1.2 的內容,但不需要看 1.1.1 或者 1.1.2 的內容。
推薦本手冊只在需要時查閱對應部分或只瀏覽一級目錄部分,若有興趣再瀏覽全文。
之後更新會在每個章節部分,推薦可嘗試使用的模型 API 服務地址。
本節課你將學到
- AI 能力全景:從文本、圖像、音頻、視頻、3D 到多模態、Agent、RAG、安全與平臺工程的整體能力劃分思路
- 各能力對應的模型與產品:瞭解 Embedding、OCR、ASR、TTS、VLM、RAG 等關鍵能力背後的代表性模型與服務
- 能力到場景的映射方法:掌握如何將“能力清單”轉化為產品內容、搜索問答、智能客服、自動化運營等具體應用
完成本手冊的學習後,你將對主流 AI 能力建立起入門級的系統化認知,不僅知道“市面上有哪些能力、常配哪些產品”,更能理解它們在整體架構中的位置和相互關係。知道在面對具體業務需求時,如何快速定位所需能力、做出有依據的選型,為構建 AI 能力體系打下堅實基礎。
手冊中涉及的模型參數
在進入具體能力地圖之前,先澄清一個經常被提到、但又有點抽象的概念:到底什麼算大模型?什麼算小模型?
從學術上看 ,大模型通常指參數量在幾十億、上百億乃至萬億級別的通用模型,小模型則是針對特定任務或場景、參數量更小(幾千萬到幾億級)的專用模型。
從價格上看 ,如果一個模型的 API 調用非常便宜,比如按調用計費幾釐錢、幾分錢,或者只按每千 tokens 幾釐到幾分,而且沒有特別強調通用大模型,那通常要麼是典型的小模型(例如專門做 OCR、ASR、圖片分類、內容審核的模型),要麼是參數量較小的輕量版大模型(專門為了高併發、低成本做了壓縮或蒸餾)。 如果單次調用價格明顯偏高,比如一次調用就要幾角甚至 1 元起步,那麼大概率是大模型。
此外,如果產品文案裡面會明確強調使用了大語言模型 LLM、通用大模型、多模態大模型,或提到端到端地完成從輸入到輸出的複雜任務(比如端到端對話機器人、端到端檢索問答、端到端視頻生成),那通常就可以把它視作是大模型。
相反,如果宣傳重點在於某一個垂直能力,比如銀行卡識別、發票識別、車牌識別、廣告點擊率預測、語音轉寫、內容安全審核,說明這個產品底層更可能是一個或一組小模型。
因此,在本文接下來的敘述中可以做個務實的約定:
- 大模型更多指那類通用、可對話、可編程、往往價格略高的模型(包括它們的多模態版本,比如 GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet 等),它們能覆蓋大部分通用文本、代碼以及圖像、音頻、視頻等多模態任務;
- 小模型則指那些為某個特定任務精調或定製的模型,通常價格更便宜、性能更穩定可控,但適用範圍更窄,需要你在系統裡主動組合與編排。
這裡不妨補充一個關鍵的行業變化:手冊中提到的很多模型能力,在 2021 年之前其實都是由 “小模型” 來承接的。針對特定場景、特定數據訓練專屬模型,以此滿足精準需求。而如今,絕大多數通用場景和任務已經可以直接調用大模型來解決 。
從精度與成本的極致追求來看,小模型的訓練與應用依然有其不可替代的價值;但對於入門者而言,我們完全可以從學會找到並調用大模型 API 開始 ,再逐步深入高階玩法。你只需要在成本、精度和延遲之間做權衡,再決定哪裡要用通用大模型,哪裡繼續保留或引入專用小模型。
從一些常見產品認識常用的文本和多模態通用大模型:
- OpenAI 系列:GPT-4、GPT-4.1、GPT-4o、GPT-5.1 等
- Google 系列:Gemini 1.5 Pro、Gemini 1.5 Flash 等
- Anthropic 系列:Claude 3.5 Sonnet、Claude 3.5 Haiku 等
- 國內模型:通義千問 Qwen 系列、文心一言 ERNIE Bot 系列、GLM/智譜清言、騰訊混元、訊飛星火、月之暗面的 Kimi 背後的大模型、MiniMax MiniMax-M2.7 系列等
更偏視覺和視頻方向的大模型和服務,包括:
- 圖像生成:DALL·E、Midjourney、Stable Diffusion、SDXL、Flux 等
- 多模態視覺理解:GPT-4o、GPT-4.1 with Vision、Gemini 1.5(圖文多模態)、Claude 3.5 Sonnet Vision、LLaVA 等
- 視頻生成:Sora、Kling、Runway Gen-2、Pika、Luma、Veo 等
語音和音頻方向的大模型,包括:
- 語音識別 ASR:Whisper 系列(Whisper、Whisper-large-v3 等)、Deepgram、各家雲廠商的端到端 ASR 大模型(如訊飛、百度、火山、阿里等)
- 語音多模態與語音對話:GPT-4o(端到端語音對話)、OpenAI Realtime、Gemini 1.5 的音頻理解能力等
- TTS / 音頻與音樂生成:OpenAI TTS、ElevenLabs、Suno、Udio、MusicGen 等
3D / 空間方向的生成與理解模型,包括:
- 文生 3D 和圖生 3D:DreamFusion、Shap-E、GET3D、Zero-1-to-3、TripoSR 等
- NeRF / 神經渲染家族:Instant-NGP、NeRF 系列、Gaussian Splatting 相關模型等
1. 文本任務 (Text / NLP / LLM)
在 AI 能力中,文字任務是最基礎的功能。無論我們最終想做的是內容審核、搜索推薦、知識問答,還是寫作助手、代碼 Copilot,本質上都繞不開一個問題:機器如何真正看懂文字。
1.1 基礎語言建模與表示
讓我們從最底層的基礎語言建模與表示講起。它的作用是讓機器先在統計意義上熟悉語言,並在此基礎上為詞、句子、文檔找到一個穩定的向量矩陣表示,以便於後面的分類、匹配、抽取、生成等任務。不管未來要做什麼文本相關任務,都或多或少需要先回答同一個問題:我怎麼用一串數字,把這一段話表示出來?
我們可以簡單從場景、原理、模型三個角度來看這個問題的相關內容:
- 場景
- 檢索搜索相關
- 通用搜索引擎:用戶隨便輸入一句話,得到含義相關的文檔,而不是隻做關鍵詞精確匹配。
- 站內搜索 / 電商搜索:用戶用口語化的描述(比如“適合夏天通勤的白襯衫”),找到含義對應的商品。
- 文檔庫 / 知識庫檢索:在技術文檔、政策法規、企業知識庫裡,直接輸入一句話獲得相關條目。
- 推薦排序相關
- 信息流 / 內容推薦:根據用戶最近看過、點過的內容,自動找出內容相近的其他內容繼續推薦,而不是隻靠人工規則或標籤。
- 電商 / 商品推薦:根據用戶看過、買過、收藏過的商品描述,找到風格或用途相近的商品,做個性化推薦。
- 用戶興趣建模:根據用戶看過的標題、搜索過的詞等,總結出幾個主要興趣方向,用來提升推薦和排序效果。
- 問答助手相關
- FAQ 問答:用戶用不同說法問同一個問題(“怎麼開發票?” vs “發票在哪裡開?”),系統能跳到同一個答案。
- 知識庫問答 / 企業助手:用戶用自然語言提問,系統到內部文檔裡按含義去匹配,找出最相關的段落回答。
- 文本理解分析相關
- 評論輿情分析:把大量評論、帖子按“在說什麼 / 情緒怎樣”大致分成幾類。
- 文本去重 / 相似檢測:用於發現改寫稿、偽原創文章。
- 文檔聚類 / 分組:把很多文章、報告按照內容相近分成幾組,方便做導航、推薦或抽樣檢查。
- 作為下游任務通用特徵 (下游任務指的是用模型的基礎能力,去實現更具體的文字處理任務)
- 文本分類:情感分類、意圖識別、垃圾內容識別等下游模型直接複用這一層的表示。
- 信息抽取:實體識別、關係抽取在詞 / 句子表示的基礎上進行微調,而不是從頭訓練。
- 文本生成:為摘要、改寫、續寫等生成任務提供語義表徵輸入,提升生成質量與可控性。
- 檢索搜索相關
- 原理 學習詞、句子、文檔的表示,為後續更復雜的任務作為基底。
- 語言建模
- 自迴歸語言模型:預測下一個 token(GPT 系列、LLaMA、Qwen 等)
- 掩碼語言模型 (Masked LM):預測被遮蓋 token(BERT、RoBERTa、ERNIE)
- 詞 / 句子 / 段落表示
- 靜態詞向量:Word2Vec、GloVe、FastText
- 上下文表徵:BERT embedding、Sentence‑BERT 等
- 文檔級向量:用於語義檢索、相似度匹配
- 語言建模
- 模型 BERT / RoBERTa / ERNIE、GPT 家族、LLaMA / Qwen / Yi 等 LLM;各類 Embedding 模型(OpenAI text‑embedding‑3 系列、bge、E5、SimCSE 等)。
1.1.1 語言建模:通過“猜下一個詞”學會語言
這一層的第一步,是先讓模型在大量文本里 熟悉語言規律 。做法可以簡單理解為:給模型出無數道“猜詞題”,在看到一段話的上下文後,讓它填上最合理的詞(token)。練習題足夠多、語料足夠廣,模型就會逐漸學會:一句自然的句子長什麼樣,哪些詞經常一起出現,什麼表達讀起來彆扭。這個過程叫“語言建模”,本質就是一套統一的 猜詞訓練機制 。
常見有兩種出題方式,每種用一句話舉個簡單例子:
- 往後接(自迴歸) :只給前面的內容,讓模型猜“後面會怎麼說”。
- 輸入前綴:
今天下雨了,所以我 - 模型任務:猜下一個詞,比如“ 帶 (傘)”“ 沒 (出去)”“ 打算 (在家)”等,然後再繼續往後接。 這種方式主要鍛鍊模型對續寫、連貫性、常見表達的把握。
- 挖空填詞(掩碼) :把中間挖個洞,讓模型利用前後文一起填空。
- 原句:
今天下雨了,所以我帶了雨傘 - 訓練句:
今天 [MASK] 了,所以我帶了雨傘 - 模型任務:把
[MASK]補成“ 下雨 ”這類合理的詞。 這裡模型必須同時看左邊的“今天”“了”和右邊的“所以我帶了雨傘”,才能決定該填什麼,更有利於學習 整句語義 。
通過在海量語料上反覆做這兩類“猜詞題”,模型會逐漸積累起對語言的 語感和統計常識 。在此基礎上,下一步我們再把這種能力顯式地變成 詞、句子和文檔的向量表示 ,為後續的檢索、推薦和問答等任務打底。
1.1.2 詞、句子與文檔表示:把離散符號映射到語義空間
構建文本向量最早一代的方法是靜態詞向量 :為每個詞分配一份固定向量,訓練好後不隨上下文變化,直觀、簡單,但 無法區分多義詞在不同語境下的含義。 為了解決這個問題,後來出現了基於上下文的動態表示方法:同一個詞在不同句子中會生成不同的向量,完全由它所在的上下文決定。比如“蘋果”在“蘋果發佈了新手機”中會更靠近“科技公司”的語義方向,而在“蘋果富含維生素”中則更接近“水果”概念。
這種機制不僅提升了詞層面的表達能力,也為句子和文檔的向量化鋪平了道路。對於句子,可以生成句向量;對於文檔,可以整篇輸入編碼(如果長度允許),或分段編碼後再通過注意力機制、層次化池化、對比學習等方式聚合出一個全局向量。近年來的專用 embedding 模型(如 bge、E5、text-embedding 系列)正是圍繞“讓語義相近的文本在向量空間中更近”這一目標持續優化,尤其在語義檢索、相似匹配等任務上表現突出。
這套從上下文建模到句/文檔向量生成的流程,已經成為搜索、推薦、問答等系統背後的核心基礎設施,讓我們回到前面提到的各類場景:
- 檢索搜索場景(通用搜索、電商搜索、知識庫檢索)都需要把用戶輸入和候選文檔都編碼成向量,然後在向量空間裡做相似度匹配,找出語義最接近的結果,而不是隻靠關鍵詞精確匹配。
- 推薦排序場景(信息流推薦、商品推薦、用戶興趣建模)需要把用戶歷史行為對應的內容轉成向量,然後找到向量相近的新內容推薦給用戶,實現"看過 A 推薦 B"的個性化效果。
- 問答助手場景(FAQ 問答、知識庫問答)需要把用戶的提問和知識庫裡的問題或段落都編碼成向量,通過向量相似度找到最匹配的答案。
- 文本理解分析場景(評論輿情、去重、聚類)需要先把每條文本轉成向量,再基於向量做聚類、相似度計算或分類。
- 下游任務場景(文本分類、信息抽取、文本生成)則是直接把這一層的向量表示作為輸入特徵,餵給後續的分類器、抽取器或生成器,避免從頭學習語義。
工程上,常見做法是封裝成統一的"文本向量服務":輸入任意一段文本,輸出一串固定維度的向量,供搜索、推薦、問答等多個系統共享使用。在產品層面,這一層的能力主要體現在:搜索和推薦中的語義召回(不再只依賴關鍵詞,而是通過向量相似度召回"說法不同但意思相近"的內容),以及面向企業知識庫、FAQ、案例庫的統一 embedding / 向量檢索服務。
1.2 文本分類與文本匹配(Classification & Matching)
在上一節中,我們通過基礎語言建模與表示,為每一段文本找到了在語義空間中的“座標”。但僅有座標還不夠,業務真正關心的問題往往是:這段文本屬於哪一類?和另一段文本是不是講同一件事?兩句話之間在邏輯上是相互支持還是互相矛盾?你可以把它理解為:用分類和匹配這兩個能力,把底層的向量表示轉化為可以直接驅動業務決策的標籤與相關性信號。我們仍然從場景、原理和模型三個角度來梳理這一層:
- 場景
- 內容理解與審核:給評論、帖子、文章打上主題、情感、風險等標籤,用於審核、推薦、統計分析。
- 推薦與排序:根據“用戶興趣標籤”和“內容標籤”的匹配程度,決定展示哪些內容、排在多前。
- 搜索與 FAQ:用戶隨便輸入一句自然語言問題,系統能夠自動找到最相關的問題‑答案對或文檔片段。
- 相似內容識別:在大量文本中找到“內容相近”的條目,用於去重、合併統計、推薦“相關內容”。
- 邏輯關係判斷:判斷兩句話之間是互相支持、互相矛盾,還是無關,用於事實核查、多輪對話一致性檢查等。
- 原理 在語義表示的基礎上,對整段文本或文本對進行整體判斷:
- 文本分類:給單條文本打標籤(如情感、主題、風險類型等);
- 文本匹配:判斷兩段文本之間的相似度、相關性,或“問題–答案”是否匹配;
- 模型 以預訓練 encoder 為基礎,接上簡單的分類 / 匹配結構:
- 單文本分類:BERT / RoBERTa / DeBERTa + 全連接分類層;
- 文本匹配:Sentence‑BERT、SimCSE、雙塔(Bi‑Encoder)、交叉編碼器(Cross‑Encoder);
- 複雜判斷:在 LLM 上通過指令微調,讓模型直接輸出標籤或邏輯關係。
1.2.1 文本分類:從“懂內容”到“給內容定性”
藉助上一層的語義表示,我們可以非常自然地在其上方接一個簡單的分類頭,通過少量標註數據,讓模型學會回答一個問題: “這段文本屬於哪一類?” 。
最經典的是 情感分類 。用戶的一句評價,可能是認可、抱怨,也可能只是陳述事實。模型在拿到這句話的向量表示之後,只需要再接一個 softmax 分類層,就能輸出“正向 / 負向 / 中立”的概率。這類能力在電商、社交平臺、應用市場等場景中,都已經非常成熟。
另一大類是 主題 / 行業分類 。新聞推薦裡,我們希望知道一篇文章是體育、財經還是娛樂;企業內部的客服 / 工單系統,則更關心這是產品諮詢、功能異常還是投訴建議。這些標籤既可以幫助內容被更精準地路由到合適的流程中,也可以作為推薦排序階段的重要特徵。
更進一步,風險 / 合規分類則直接與平臺安全相關。我們會針對廣告導流、謾罵攻擊、涉政敏感、低俗色情等類別設置專門的分類模型,配合人工審核,對高風險內容進行攔截或降權。可以說,絕大部分內容安全策略的第一道閘門,都是由這類分類器構成的。
可以看到,到這一層為止,我們已經能夠把“抽象的語義表示”轉化為若干業務可用的標籤。接下來,我們要討論的是:當文本之間產生關係時,我們又如何進行 匹配與推斷 。
1.2.2 文本匹配:為一句話“找到最合適的另一句”
與分類對“單個文本定性”不同,文本匹配關注的是“兩段文本之間的相關性”。在很多產品裡,這往往是實現“智能”的關鍵一環:用戶說了一句話,系統能不能找到知識庫裡最合適的一條進行回應,完全取決於匹配質量。
最基礎的是 語義相似度計算 。我們會先用上一層的 embedding 模型,把兩個句子編碼成向量,再通過餘弦相似度、點積等方式,判斷它們在語義空間裡的距離。像 SimCSE、Sentence‑BERT 這類模型,就是通過對比學習的方式,專門把“相似的句子對”拉近,把“不相似的句子對”推遠。
在此之上,複述檢測和抄襲檢測只是特定應用場景的匹配任務。前者用於內容去重,避免平臺充斥著重複表達;後者則在教育、知識社區等場景中,用來識別高度相似的回答或文章。技術上,它們本質都是根據文本相似度來做二分類或排序。
一個非常重要的下游應用是 問答匹配 。當用戶提出一個自然語言問題時,我們不會直接用關鍵詞去匹配 FAQ,而是通過語義向量先做召回,再用更精細的匹配模型(如交叉編碼器 Cross‑Encoder)對若干候選進行重排序,選出最可能對應的那一條。這一鏈路構成了 FAQ 機器人和文檔問答系統的基礎。
在這一層,我們已經具備了對“整段文本”進行分類和關係判斷的能力。但在很多場景裡,業務並不滿足於此,而是進一步希望知道: 這段文本中具體提到了哪些實體、發生了什麼事件 。這就自然引出了下一節的主題—— 序列標註與信息抽取 。
1.3 序列標註與信息抽取(Sequence Labeling & Information Extraction)
在完成了對文本整體的分類和匹配之後,我們往往會遇到一個更細緻的訴求:不僅要知道“這篇文章是關於什麼的、風險高不高”,還要進一步知道“它具體提到了誰、在哪兒、什麼時候、金額是多少”。這一節,就是在整體判斷之上向“細粒度結構化”邁出的關鍵一步。你可以把它理解為:在已經知道“應該看哪一類文本、它大概講什麼”的前提下,從文本內部挖掘實體、關係、事件和各類字段,讓非結構化文本可以直接被業務系統消費。我們同樣從目標、原理、模型和產品四個方面來看這一層:
- 場景
- 行業文本結構化:從合同、報告、公告、病歷、政策等文檔中,抽取出人名、機構、金額、時間、條款等關鍵字段,用於入庫和檢索。
- 知識圖譜與關係網:從新聞、論文、問答中識別實體及其關係,構建“誰和誰有什麼關係”的圖譜,用於搜索、推薦和分析。
- 票據與單據處理:對發票、對賬單、報銷單等,自動提取抬頭、稅號、金額、日期等字段,減少人工錄入。
- 輿情與事件分析:從海量文本中抽取“誰在什麼時候在哪兒做了什麼”,用於事件跟蹤、風險預警與統計報表。
- 日誌與工單結構化:把客服對話、工單、系統日誌等非結構化文本里的關鍵信息抽出來,方便統計、監控和自動化處理。
- 原理 在 token / 短語層面,對文本進行細粒度標註與結構化:
- 序列標註:對每個 token 貼標籤(如人名、地名、機構名、產品名等),實現命名實體識別、詞性標註、短語切分等;
- 關係與事件抽取:在實體之上識別“實體‑實體”之間的關係,以及“誰在何時何地做了什麼”的事件結構;
- 業務字段抽取:圍繞具體業務 schema(如合同字段、票據字段),將長文檔轉成標準化的 key‑value 或記錄表。
- 模型 在預訓練表示的基礎上,通過序列標註或 span 抽取等結構完成信息提取:
- 序列標註模型:BiLSTM‑CRF、BERT + CRF / Softmax 等;
- Span‑based 抽取:直接預測實體 / 關係片段的起止位置;
- 文檔級抽取:結合版式、佈局的 DocIE 類模型;
- 基於 LLM 的抽取:通過 Prompt / Few‑shot,讓大模型按指定格式抽取所需字段。
1.3.1 序列標註:給每個 token 和短語貼上語義“標籤”
在文本分類階段,我們只關心整段文本屬於哪一類;而在序列標註階段,我們要對文本中的每一個 token、每一段短語進行標記。最典型的任務是命名實體識別(NER):識別人名、機構名、地名、產品名、疾病名等特定類型的實體。
- 例如,在句子“張三在北京加入某科技公司”中,把“張三”標為人名、“北京”標為地名、“某科技公司”標為機構。
從建模方式上看,傳統的做法是使用 BiLSTM + CRF 這類序列標註結構,後續則更多采用 BERT + CRF 或 BERT + Softmax,利用預訓練 encoder 的上下文表徵能力,來判斷每個 token 的標籤(如 B‑ORG、I‑ORG、O 等)。在實踐中,NER 模型往往是後續知識圖譜、關係抽取的第一道“預處理”。
除了 NER 外,詞性標註、短語切分也屬於典型的序列標註任務。它們更多服務於底層語言分析,為後續更復雜的語法 / 語義任務提供基礎結構。
- 比如對“快速 提升 模型 性能”標出“快速”為副詞,“提升”為動詞,“性能”為名詞,用於下游分析。
1.3.2 關係與事件抽取:把“點”連成“線”和“故事”
當我們通過序列標註識別出文本中的實體之後,一個順理成章的問題是:這些實體之間到底是什麼關係,它們共同構成了什麼樣的事件?
關係抽取關注的是“實體對 + 關係類型”。例如,在一句“張三於 2024 年加入某科技公司擔任 CTO”中,我們不僅要識別“張三”和“某科技公司”這兩個實體,還要抽取它們之間的“就職於”關係。
- 簡單來說,就是從“張三 – 某科技公司”這對實體上,貼上“任職”這類關係標籤。
在關係之上,事件抽取則試圖重建“誰在什麼時候、什麼地點,做了什麼事情”。以一則新聞為例,一個標準的事件模板可能包含:事件類型(收購、合作、事故)、時間、地點、參與方、金額、後果等多個槽位。事件抽取模型需要從冗長的文本中自動填充這些槽位,從而構建出可被檢索、統計和推理的“事件表”。
- 比如從“某公司以 5 億元收購另一家公司”中抽出:事件類型=收購,金額=5 億元,參與方=兩家公司。
在建模方法上,除了傳統的序列標註式抽取,我們還會採用 Span‑based IE(直接預測實體 / 關係 span 的起止位置)以及近年來興起的 Prompt‑based IE 和基於 LLM 的 Few‑shot 抽取。後者的優勢在於可以通過自然語言提示,快速適配新的 schema,減少大量重新標註和訓練的成本。
從工程角度看,成熟的抽取系統往往會形成一條管線:
- 上游 NER / 序列標註識別實體;
- 中間層做關係和事件結構建模;
- 下游把結果寫入數據庫或知識圖譜,供搜索、分析和風控系統消費。
1.4 文本生成與編輯(Text Generation & Editing)
在前面幾節中,我們已經依次構建了“表示 → 分類匹配 → 序列標註與抽取”這條理解鏈路:模型不僅能把文本映射到語義空間,還能對整段文本做判斷,並從中抽取出結構化信息。這一節要做的,是把這條理解鏈路“反向”再走一遍:在充分理解的基礎上,讓模型主動去生產、改寫、壓縮和潤色文本。你可以把它理解為:在語義空間中進行“反向編碼”,把內部表示重新變成高質量的自然語言輸出,是整條文字模態能力鏈裡最貼近用戶感知的一層。我們依舊從目標、原理、模型和產品四個維度來拆解:
- 場景
- 日常寫作與辦公:生成郵件、通知、方案初稿,或對現有文本進行擴寫、改寫和潤色。
- 知識管理與總結:對長文檔、報告、會議記錄進行自動摘要,幫助快速抓住重點。
- 客服與問答:根據用戶問題和檢索到的資料,自動生成結構清晰、口吻統一的回答。
- 營銷與創意內容:生成廣告文案、社交媒體帖子、活動介紹、腳本等。
- 多語言場景:在保持原意的基礎上,完成翻譯、本地化改寫,適配不同語言和場景。
- 原理 在語言建模的基礎上,對文本進行“從無到有”和“基於已有內容的修改”:
- 自由生成:根據意圖、提示詞或大綱,從頭生成一段完整的文本;
- 受控改寫:在保持核心信息不變的前提下,調整風格、長度、結構(如摘要、擴寫、風格轉換);
- 糾錯與潤色:修正錯別字、語法問題,優化表達順序和邏輯結構。
- 模型 以大規模預訓練 + 指令微調的生成模型為主:
- 指令微調 LLM:GPT 系列、LLaMA / Qwen / GLM 等,用於通用生成與編輯;
- Seq2Seq 模型:T5、BART、mT5 等,用於摘要、翻譯、格式轉換等任務;
- 對齊與安全:通過 RLHF / RLAIF 等手段,讓生成內容更加符合指令和安全要求。
由於這個部分基本等於提示詞工程,故不再過多闡述,可以自行查看提示詞工程部分的教程。
2. 圖像模態(Image / Vision)
在 AI 能力中,圖像模態負責“用視覺理解世界”。不管最終想做的是安防監控、自動駕駛、短視頻特效、電商智能修圖,還是多模態問答、AI 畫畫,本質上都離不開一條路徑:從原始像素出發,逐步獲得對畫面的結構化理解與可控生成能力。
2.1 底層視覺(Low‑Level Vision)
在上一節中,我們從整體上介紹了視覺模態在多模態系統中的角色,以及它與語言、語音之間的銜接方式。但在真正進入目標檢測、圖像理解、視覺問答這些“高層語義任務”之前,還有一個往往被忽略、卻至關重要的基礎能力層——底層視覺。你可以把它理解為:在“看懂圖裡是什麼”之前,系統需要先解決“這張圖本身質量如何”“有哪些穩定的局部結構可以被上層複用”這兩個問題,用一層通用的復原、增強和結構抽取,將原始像素轉化為更乾淨、更穩定的圖像表示。
從工程角度看,底層視覺既直接影響用戶肉眼看到的“畫質體驗”,也決定了上層檢測、識別、分割等任務的輸入分佈是否健康。如果這一層做得不好,後面所有模型都要在“噪聲大、畸變重、光照極端”的環境下硬扛;相反,如果在這一層就把圖像儘可能修好、結構信息提煉好,高層任務就可以在一個更友好的基座上發揮能力。下面我們同樣從場景、原理和模型三個角度來梳理這一層:
- 場景
- 相機與拍攝設備:手機/相機的自動去噪、HDR、夜景模式、防抖,多幀融合提升細節和動態範圍。
- 內容平臺與短視頻:上傳圖片/視頻的一鍵畫質增強,去壓縮塊、提高清晰度和對比度,提升主觀觀感。
- 老照片與文檔修復:老照片的去噪、上色、超分辨率;拍歪、拍暗的票據、合同、書頁自動拉正、增強,方便 OCR。
- 監控與安防:低照度監控畫面的降噪、去霧、防雨滴、提升分辨率,為後續人臉/車牌識別打基礎。
- AR/VR 與三維重建:為 SLAM、全景拼接、三維重建提供穩定的角點、邊緣和局部描述子,保證跟蹤與配準魯棒性。
- 原理 圍繞“圖像質量”和“局部結構”兩個核心目標,對像素級信息進行物理與統計建模:
- 圖像復原與增強:假設觀測圖像是理想圖像經過噪聲、模糊核、壓縮和成像非線性等退化後得到,在這一假設下進行去噪、去模糊、去壓縮偽影、低光照增強和超分辨率重建,使輸出更接近真實場景成像,同時符合人眼感知習慣。
- 結構特徵抽取:在不引入具體語義標籤的前提下,從像素梯度和紋理統計中提取邊緣、角點、局部紋理、顯著區域等特徵,為後續的檢測、配準、跟蹤、分割提供“幾何骨架”。
- 幾何與光照預處理:基於相機模型和簡單幾何線索(直線、消失點、對稱性等)估計畸變與透視關係,通過去畸變、拉正、對比度與光照歸一化等操作,將原始圖像對齊到一個更標準、更穩定的輸入空間。
- 模型 綜合使用經典圖像處理方法和深度學習模型,在效率與效果之間做權衡:
- 傳統圖像處理:雙邊濾波、非局部均值、引導濾波、Retinex、直方圖均衡、Canny/LoG 邊緣檢測、Harris/FAST 角點、SIFT/SURF/ORB 描述子、Hough 變換、相機標定與幾何校正等。
- 深度復原與增強模型:基於 CNN 或視覺 Transformer 的去噪、去模糊、超分辨率、去雨/去霧/去壓縮偽影模型(如 EDSR、RCAN、SwinIR、ESRGAN 等),以及多幀/視頻增強網絡,用端到端方式學習從退化圖到高質量圖的映射,或使用現代的圖像編輯模型實現例如即夢和 qwen 編輯模型。
2.1.1 圖像復原與增強:從“看得見”到“看得清”
在底層視覺裡,圖像復原與增強首先面對的是各種退化:噪聲、模糊、壓縮失真、低光照、動態範圍不足等。很多真實場景下的原始圖像並不“乾淨”:夜景和室內弱光會讓畫面佈滿顆粒和色斑,抓拍和監控畫面常常因為運動、對焦不準而發虛,視頻壓縮會帶來一塊一塊的方塊噪聲。復原與增強的目標,就是在不改變圖像語義內容的前提下,儘可能恢復清晰的細節和自然的觀感,把“模糊、灰暗、髒”的輸入變得“清楚、明亮、舒適”。
典型任務包括去噪、去模糊、低光照增強和超分辨率等。去噪和去模糊需要在局部紋理和整體結構之間權衡:既要壓制高頻噪聲、反捲積掉模糊核的影響,又不能把真實細節一起抹平;低光照增強則要在提升亮度與對比度的同時,避免暗部噪聲被一併拉起,並校正偏色、壓住過曝區域;超分辨率則側重在放大的同時補出合理的高頻信息,讓放大後的圖像既不顯得“糊”和“塑料感嚴重”,又不過度“憑空捏造”細節。現代方法大多采用深度網絡(CNN 或視覺 Transformer),在大量“退化–清晰”成對數據上學習從觀測圖像 y 到理想圖像 x 的映射,同時使用包含像素誤差、感知損失和對抗損失的組合目標,在“指標好看”和“人眼好看”之間取得平衡。
這些能力在產品中的呈現往往是隱性的:手機相機的夜景模式和 HDR 拍照、短視頻平臺的一鍵畫質增強、老照片修復工具、監控系統的雲端增強服務,本質上都依賴這一層的復原與增強模塊。對業務而言,它們既直接影響用戶對“畫質”的主觀感受,也間接決定了上層檢測、識別、分割等算法的輸入質量。可以說,越是複雜的上層視覺任務,越依賴底層有一個高質量、分佈穩定的“圖像地基”。
2.1.2 結構特徵與預處理:為高層理解搭好“腳手架”
當圖像質量被修復到一個可用水平之後,底層視覺的第二項關鍵工作,是從像素中抽取出與具體語義暫時無關、但對幾何結構和視覺感知非常重要的特徵,並對幾何和光照進行統一。這一步不會直接告訴你“這裡是一輛車”或“這是某個人的臉”,但會回答“哪裡有清晰的輪廓和拐角”“哪些區域紋理結構顯著”“圖像是否發生畸變或傾斜”等問題,為上層模型提供可靠的結構性輸入。
在特徵提取方面,邊緣和角點是最基礎的元素。通過 Canny、Sobel 等算子,系統可以在整張圖上標出灰度或顏色變化最劇烈的“邊緣”,這些往往對應物體輪廓、部件分界和紋理走向;角點檢測(如 Harris、FAST)則找到局部梯度在多個方向上都變化顯著的“拐角”,通常出現在物體的角、線條交匯處。進一步地,像 SIFT、SURF、ORB 這樣的局部描述子,會在這些關鍵點周圍編碼一小片區域的紋理模式,使得同一物理點在不同視角、尺度和一定光照變化下仍然可以被匹配出來,這為圖像配準、全景拼接、SLAM、AR 跟蹤和三維重建提供了基礎支撐。
與特徵提取並行的,是各種幾何和光照預處理操作。廣角鏡頭帶來的桶形/枕形畸變、拍攝文檔時的傾斜和透視拉伸,都會通過直線檢測、消失點估計等底層幾何線索被識別出來,並通過去畸變、拉正、透視矯正等步驟被“拉回正常”;全局或自適應直方圖均衡、對比度拉伸和光照歸一化,則在保證細節不丟失的前提下,提升局部對比度、減弱光照不均和陰影的影響。顏色空間變換(RGB→HSV/Lab)與顏色直方圖統計,為簡單的基於顏色的分割、顯著性區域檢測、色偏校正等任務提供直接可用的輸入。
在端到端深度學習成為主流之後,這些結構特徵和預處理有一部分被“內化”到了網絡前幾層的卷積核和歸一化策略中,不再以顯式算子的形式出現在系統架構圖上。但從功能上看,它們依然扮演著同樣的角色:先用一層相對通用的、與具體類別無關的底層處理,把原始像素整理成在幾何形態、光照條件和局部結構上更穩定的表示,再交給上層的分類、檢測、分割和多模態模塊去完成“理解這是什麼”的任務。沒有這層“腳手架”,上層模型就不得不在噪聲大、畸變重、結構模糊的原始圖上硬扛,整體系統的魯棒性和泛化能力都會顯著下降。
2.2 圖像分類與識別(Image Classification & Recognition)
在大部分圖像任務中,業務方真正關心的問題是:這張圖整體屬於哪一類?圖裡的這個人是誰?這名行人在不同攝像頭下是不是同一個? 你可以把這一層理解為:在一個統一、乾淨的輸入空間上,為整張圖像或者整個人/目標打上“類別標籤”或“身份標籤”,把視覺信號轉化為最直接可用的識別結果。
從產品視角看,圖像分類與識別是最早大規模落地的一批視覺能力,也是很多上層應用的“入口模塊”。電商和內容平臺用它來自動給圖片打標籤、識別主體品類;安防和門禁系統用它來確認“是不是同一個人”;行人重識別系統則在多路攝像頭之間抽絲剝繭,找出同一目標的跨場景軌跡。下面我們同樣從場景、原理和模型三個角度來梳理這一層:
- 場景
- 通用圖片理解:為用戶上傳的圖片自動打上“風景 / 美食 / 寵物 / 文檔”等主題標籤,用於檢索、推薦、內容審核。
- 人臉識別與門禁:在人臉門禁、考勤系統中,根據人臉圖像識別個人身份,實現“刷臉通行”“刷臉打卡”。
- 行人/人員重識別:在不同攝像頭畫面中判斷是否為同一行人或同一人員,用於安防檢索、軌跡分析。
- 人體屬性識別:在不直接確認身份的前提下,識別性別、年齡段、是否戴帽子/揹包/穿制服等屬性,為檢索和行為分析提供線索。
- 原理 在統一的視覺特徵空間中,對整張圖或整個人/目標進行判別式建模:
- 圖像分類:以整張圖像為輸入,通過卷積網絡或視覺 Transformer 提取全局特徵,並在特徵頂層接一個分類頭,輸出單標籤或多標籤的類別概率,用於回答“這是一張什麼類型的圖片”。
- 身份/實例識別:將“是誰”的問題轉化為特徵空間中的度量學習問題,即學習一個嵌入空間,使同一身份的圖像特徵彼此接近,不同身份的特徵彼此遠離,然後用最近鄰搜索或聚類完成識別與檢索。
- 屬性識別:在共享的行人/人體特徵之上,增加多任務輸出頭,預測性別、年齡段、衣著顏色、是否攜帶物品等屬性標籤,使得同一特徵可以服務於多種下游檢索與分析需求。
- 模型 以深度卷積網絡和視覺 Transformer 為主幹,結合分類頭或度量學習頭實現不同類型的識別任務:
- 圖像分類 Backbone:ResNet、DenseNet、EfficientNet、ConvNeXt、Vision Transformer (ViT)、Swin Transformer 等,通常在 ImageNet 等大規模數據集上進行預訓練,再在具體業務數據上微調。
- 通用分類結構:Backbone + 全連接分類層(Softmax / Sigmoid),用於單標籤或多標籤圖像分類任務,可通過類別重加權、focal loss 等應對長尾分佈。
- 身份/實例識別:在 Backbone 的特徵輸出之上,使用 ArcFace、CosFace、SphereFace 等帶角度約束的損失函數,顯式拉大不同身份之間的類間間隔,提升在特徵空間中的可分性,並通過向量檢索(ANN)完成大規模庫上的比對。
- 行人/屬性識別結構:針對行人 Re-ID 和人體屬性識別,常見做法是採用共享 Backbone 提取行人特徵,再在頂層分出“身份分支”和“屬性分支”,既優化跨攝像頭的身份區分能力,又兼顧多屬性預測。
對應到具體產品形態,這一層的能力常以“圖片內容識別 / 分類 API”“人臉識別 SDK / SaaS”“行人重識別平臺”等方式對外提供。它們往往既直接驅動業務決策(如門禁放行、內容標籤寫入),又作為上游,為後續的檢索、推薦、行為分析和多模態理解提供結構化標籤與穩定的身份表徵。下面,我們分別從圖像分類和身份/屬性識別兩個角度展開。
2.2.1 圖像分類:回答“這是一張什麼圖?”
在最基礎的圖像分類任務中,系統面對的是整張圖片,目標是給它貼上一個或若干個語義類別標籤。最常見的是單標籤分類,例如在 ImageNet 這樣的數據集中,每張圖被標註為“狗”“貓”“汽車”“飛機”等一個主類別;在業務場景中,這類能力被廣泛用於給用戶上傳的圖片加上“風景 / 美食 / 寵物 / 人像 / 文檔”等主題標籤,支持檢索、推薦和內容審核。與文本分類類似,模型會在預訓練 Backbone 提取的全局視覺特徵之上接一個全連接 + Softmax 層,對所有候選類別輸出一個概率分佈。
在很多實際應用中,一張圖往往同時屬於多個類別,比如一張“海邊日落自拍”圖片,既可以是“風景”,也是“人像”,還可能被標註為“旅行”“海邊”。這時就需要多標籤分類(Multi‑label Classification):模型依然從整圖特徵出發,但輸出層不再是互斥的 Softmax,而是對每個標籤單獨預測有/無的概率(Sigmoid),並採用多標籤損失函數來訓練。為了應對現實數據中大量“長尾類別”(冷門標籤樣本極少),多標籤分類模型常會加入類別重加權、難例挖掘或標籤結構建模等機制,提升對小眾類別的召回。
在人機接口層面,圖像分類通常以“圖片內容識別 API”的形式對外提供。上游業務只需上傳一張圖片,即可獲得一組類別標籤及其置信度,用於後續的策略判斷:比如廣告投放系統可以根據圖片內容限制某些敏感類目,電商平臺可以利用圖片分類輔助商品類目糾錯,內容平臺則用來豐富推薦特徵和審核信號。雖然從技術上看,這類能力相對成熟,但它仍然是後續目標檢測、實例分割、視覺問答等更復雜能力的基石。
2.2.2 圖像識別與屬性識別:回答“這是誰 / 這是什麼實例?”
與“這是一張什麼類型的圖”不同,圖像識別更關心的是“圖中的這個人/目標是誰”,也就是身份級、實例級的區分。典型代表是人臉識別和行人重識別:前者在門禁、考勤、支付等場景中判斷“當前人臉與庫中哪一個身份最接近”;後者則在多路攝像頭與不同時間段的監控畫面中,尋找是否存在同一行人,輔助案件回溯和軌跡分析。這類任務的核心,不再是簡單的多分類,而是如何在特徵空間中學習到一個“類內緊湊、類間分離”的嵌入,使同一身份在不同姿態、光照、攝像頭下拍攝的圖像仍能被聚到一起。
在模型設計上,人臉識別和行人重識別通常採用類似的範式:先用 ResNet、ConvNeXt、ViT、Swin 等 Backbone 提取以人臉/行人為中心的特徵,再接上專門為度量學習設計的損失函數,如 ArcFace、CosFace 等。與普通分類損失不同,這些損失直接在角度空間或特徵空間上約束類間邊界,顯式拉大不同身份特徵之間的間隔,從而使得訓練好之後的特徵可以拿來做大規模向量檢索,而不必侷限於訓練時見過的固定類別。在線服務時,系統會先對圖庫中每個身份的特徵進行預計算和索引,再對上線查詢的人臉/行人特徵進行近似最近鄰搜索,找到最相似的若干候選,並結合業務閾值和多模態信息做最終決策。
與“直接身份識別”相對應的,是不指向具體人的 屬性識別 。在很多安防和零售場景下,系統只需要知道“是男性還是女性”“大概年齡段”“是否戴帽子/口罩”“衣服顏色和款式”“是否揹包/拉行李”等屬性,用於快速篩選目標,而不必、也不適合直接輸出個人身份。這類任務通常在共享的行人/人體特徵之上,接多個並行的屬性頭(頭的意思是輸出概率的位置,可以多幾個概率輸出的結果用於判斷類別),每個頭負責預測一個或一組屬性標籤,形成一個多任務學習框架。一方面,多任務訓練可以讓特徵更加豐富、泛化更好;另一方面,屬性本身也可以作為 Re-ID 或檢索的輔助條件,提升系統在複雜場景下的可用性。
在產品形態上,這一類能力通常打包為“人臉識別 SDK/雲服務”“行人重識別平臺”“人體屬性識別 API”等,被集成進門禁閘機、考勤機、安防平臺和視頻結構化系統。與通用圖像分類相比,它們對數據安全和隱私保護要求更高,對誤識率和召回率的權衡也更敏感,因此在算法之外,還會輔以質量檢測(如是否為真人、是否為遮擋/翻拍)、活體檢測、多模態交叉驗證等機制,構成更完整、更負責任的身份識別方案。
2.3 目標檢測(Object Detection)
在前面的圖像分類與識別中,我們只對“整張圖”或“整個人”給出一個整體標籤,而忽略了它在圖中出現的位置和大小。然而,真實業務更常見的問題是:這張圖裡有哪些物體?它們分別在什麼位置? 比如一張街景圖中,我們希望同時標出所有的行人、車輛、交通標誌牌;在工業產線上,需要在同一畫面中標出所有瑕疵區域、零件位置。目標檢測就是為這些需求而生的:它在單張圖像或視頻幀中,同時預測每一個物體的 位置(bounding box)和類別 ,是眾多下游視覺任務(跟蹤、分割、行為分析、多目標計數等)的基礎能力。
從工程使用角度看,目標檢測是很多視覺系統的“第一步結構化”,把一張原始圖分解為若干個帶標籤的矩形框,每個框都可以進一步送到其他模塊做識別、跟蹤、屬性分析乃至語義生成。安防攝像頭中行人/車輛的檢測、無人零售貨架上商品的檢測、工業質檢中缺陷/異物的檢測、以及雲廠商提供的「目標檢測 / 物體檢測」API,本質上都依賴這一層能力。下面我們從 場景 、原理和模型三個角度來梳理目標檢測,並在後續小節中分別展開關鍵方向。
- 場景
- 安防與交通監控:在攝像頭畫面中實時檢測行人、車輛、非機動車、交通標誌、逆行/佔道目標等,為後續的行為分析和告警提供基礎。
- 工業質檢與製造:在生產線上檢測產品缺陷(劃痕、破損、異物)、零部件位置、裝配是否缺失,支持自動剔除與機器人定位。
- 零售與物流:無人零售貨架商品檢測、結算;倉儲中包裹、托盤、碼垛的目標檢測與定位,輔助庫存盤點和機器人抓取。
- 內容理解與審核:在圖像/視頻中檢測人、logo、武器、敏感物品等,為內容審核、廣告合規和品牌識別提供結構化信號。
- 原理 目標檢測的核心,是在圖像上構建一個密集預測機制:
- 將輸入圖像通過 Backbone 提取為多尺度特徵圖,在這些特徵圖上,對每個“位置”(或候選區域)同時預測“是否有目標”“是什麼類別”“對應的 bbox 參數”。
- 按照架構劃分,有先生成候選框再精修的 雙階段檢測(Two‑stage) ,以及直接在特徵圖上做分類+迴歸的一體化 單階段檢測(One‑stage) ,兩者在精度與速度上各有側重。
- 按候選框設計劃分,有依賴預定義錨框(anchor)的 anchor‑based 方法,也有直接預測中心點/邊界的 anchor‑free 與基於集合匹配的 DETR 家族 。
- 為應對現實數據中的小目標、密集目標、遮擋和尺度變化,檢測器通常會結合多尺度特徵(FPN)、更高分辨率輸入、特定損失函數與後處理策略(如 NMS 變體、多尺度測試)進行優化。
- 模型 檢測模型大體由骨幹網絡 + 特徵金字塔 / 頭部結構 + 損失與後處理三部分構成:
- 經典雙階段檢測器:Faster R‑CNN、Mask R‑CNN 等,先通過 RPN 產生候選框,再對每個候選區域做精細分類與迴歸,精度高、結構清晰,適合對精度要求極高的場景。
- 單階段檢測器:SSD、RetinaNet、YOLO 系列(YOLOv5/6/7/8、YOLOX、YOLOv10 等)等,在一個統一的網絡中完成檢測,結構緊湊、延遲低,是工業界實時檢測的主力。
- Anchor‑free / Transformer 檢測器:FCOS、CenterNet、ATSS 等以像素點為中心直接預測框;DETR / Deformable DETR 等通過 Transformer 和集合匹配,將檢測視為“從一組查詢中生成一組目標”的問題,簡化多種手工設計。
- 視頻檢測與跟蹤:在圖像檢測器的基礎上,引入時序信息與關聯策略(如跟蹤頭、光流、軌跡匹配),形成 Detection + Tracking 的統一框架,支撐長時間、多目標的行為分析。
綜合來看,目標檢測處於視覺能力譜系的“中樞位置”——它一方面承接底層視覺提供的乾淨圖像輸入,另一方面把圖像解構成可供識別、跟蹤、分割和多模態理解使用的“目標級”元素。下面,我們分別從 單/雙階段檢測架構 、Anchor‑based / Anchor‑free / Transformer 檢測以及小目標與視頻檢測三個方向展開。
2.3.1 單階段與雙階段檢測:精度–速度的結構權衡
從架構上看,目標檢測最經典的劃分是 雙階段(Two‑stage)與單階段(One‑stage) 。二者的主要區別在於:是先“粗選一批候選框,再進行精修”,還是在特徵圖上“一次性預測完所有框和類別”。
雙階段檢測以 Faster R‑CNN 為代表。它首先在 Backbone 特徵圖上通過 RPN(Region Proposal Network)生成一批“高概率包含目標”的候選框(第一階段),然後對每個候選區域進行 RoI 對齊與特徵提取,再做更精細的分類與邊框迴歸(第二階段)。這種設計的好處是:大量負樣本在 RPN 階段就被過濾掉,第二階段可以集中精力在少數候選區域上做高質量的判別,因此在精度上往往更有優勢,也更容易擴展到實例分割(Mask R‑CNN)、關鍵點檢測(Keypoint R‑CNN)等任務。不過,多階段結構帶來的計算與實現複雜度相對較高,更適合對實時性要求不那麼苛刻、但強調精度和可擴展性的離線或準實時場景。
單階段檢測則力圖打通整個流程,在一個統一的網絡中同時完成類別分類和邊框迴歸。代表模型包括 SSD、RetinaNet 和 YOLO 系列等:它們直接在多尺度特徵圖的每個位置上預測若干候選框的“前景/背景 + 類別 + bbox”,省去了顯式 proposal 階段,更適合做端到端加速與部署。早期的單階段檢測器相對雙階段在精度上有一定差距,但憑藉結構簡單、速度快,在工業界迅速佔據主導;隨著 FPN、focal loss、IoU‑aware loss,以及更強 Backbone 和 Neck 的引入,RetinaNet、YOLOX、YOLOv7/8/10 等新一代模型已經在很多任務上實現了“接近甚至趕超雙階段”的精度–速度平衡。
在應用層面,工程上通常會根據需求在這兩類架構間做取捨:對於雲端批量離線分析、需要較高精度和可擴展性(如同時做檢測+分割+關鍵點)的任務,雙階段檢測仍然是一個穩定可靠的選擇;而對於邊緣設備、移動端應用、攝像頭實時檢測等延遲敏感場景,YOLO 系列等單階段檢測器幾乎是默認首選,並且往往會結合量化、剪枝、蒸餾等技巧,以進一步壓縮模型和提升吞吐。
2.3.2 Anchor‑based 與 Anchor‑free:從手工設定到端到端學習
在如何定義“候選框”這一問題上,檢測方法又可以分為 Anchor‑based 和 Anchor‑free 兩大類。早期主流方法(如 Faster R‑CNN、SSD、RetinaNet、YOLOv3/v4/v5 等)採用 Anchor‑based 思路:在特徵圖的每個位置預先定義若干具有不同尺度和長寬比的錨框(anchor),然後學習每個 anchor 對應的前景概率和 bbox 偏移量。這種方式實現簡單、效果好,但需要人工對 anchor 的尺寸和比例進行較多調參,且在小目標、密集目標場景下容易出現 anchor 數量龐大、正負樣本極度不平衡的問題。
Anchor‑free 方法則嘗試擺脫對預定義 anchor 的依賴。以 FCOS、CenterNet、ATSS 等為代表,它們通常直接在特徵圖的每個像素點上預測“這裡是否是某個目標的中心(或屬於該目標)”以及對應的邊界距離,從而完全避免了預設 anchor 的複雜性。這樣的好處是:模型結構更簡潔,訓練樣本分配策略可以更加自然,尤其在面對尺度變化大、目標形狀複雜的真實場景時,具有更好的泛化和可擴展性。與此同時,Anchor‑free 檢測器也推動了更多基於像素/點的統一框架,使得檢測與關鍵點、分割等任務更易共同建模。
更進一步,DETR / Deformable DETR 等 Transformer‑based 檢測器從另一個維度重新思考了檢測問題:它們不在特徵圖上密集鋪設 anchor,而是引入一組固定數量的“查詢向量”(object queries),通過 Transformer 的自注意力和交叉注意力機制,從全局特徵中“生成”一組目標預測,並通過匈牙利匹配(Hungarian Matching)實現一一對齊。這種集合預測(set prediction)的思路徹底消除了 NMS 和手工樣本分配等傳統組件,在概念上非常簡潔,但在早期實現中存在收斂慢、對小目標不友好等問題;後續的 Deformable DETR 通過引入可變形注意力和多尺度機制,在收斂速度和性能上都有明顯提升,逐漸在檢測與多任務場景中獲得更多應用。
對於工程實踐而言,Anchor‑based、Anchor‑free 與 Transformer 檢測並不是互斥的選擇,而更像是一條演化鏈:從 heavily engineered 的 anchor 設計,到更為端到端的點/中心預測,再到完全基於集合預測與注意力的統一框架。當前工業落地中,YOLO 系列等成熟 Anchor‑based 模型依然是主力,Anchor‑free 和 DETR 家族則更多出現在對結構簡潔性、多任務統一性、可擴展性要求較高的系統中。
2.3.3 小目標與視頻檢測:走向真實場景的魯棒性
在公開數據集上的目標檢測往往給人一種“問題已經基本解決”的錯覺,但一旦進入真實場景,就會立刻遇到兩類棘手問題:小目標/密集目標與 視頻中的穩健檢測與跟蹤 。
小目標檢測中,目標在原圖中往往只佔極少的像素區域,例如遠處的行人、遙遠的車輛、空中無人機,或者高分辨率工業圖像上的微小瑕疵。隨著 Backbone 下采樣和特徵圖分辨率的降低,這些小目標在高層特徵中很容易被“淹沒”,導致漏檢。為此,檢測器通常會採用多尺度特徵金字塔(FPN/PAFPN 等)、提高輸入分辨率、在淺層特徵圖上增加檢測頭,甚至專門設計針對小目標的分支和損失加權策略。同時,在數據層面也需要通過裁剪、放大、小目標重採樣等方式,提升模型對小尺度目標的感知與記憶能力。
密集目標(如擁擠人群、密集停車場、排列緊湊的商品/零件)則會暴露出錨框重疊、NMS 誤殺、遮擋嚴重等問題。改進策略包括更精細的標籤分配(如 ATSS 等自適應分配方法)、軟 NMS 或基於學習的去重策略、以及通過中心點/密度圖建模等方式緩解框間競爭。在工業質檢中,許多系統還會結合檢測與像素級分割,實現更精確的缺陷定位,以便後續自動處理。
當檢測從單幀擴展到視頻時,另一個挑戰是 時間連續性與目標穩定性 。單幀檢測器在每一幀上獨立做出預測,難以避免短時丟檢、ID 抖動和虛警,而現實應用中的告警、計數、軌跡分析往往需要跨幀一致的目標軌跡。為此,視頻目標檢測通常會疊加一個 Tracking 模塊,把“檢測 + 目標跟蹤”打通:經典做法是以圖像檢測器為前端,在後端利用卡爾曼濾波、匈牙利匹配、外觀特徵相似度等實現多目標跟蹤(如 SORT、DeepSORT 等);更進一步的做法是將跟蹤頭直接整合到檢測網絡中,聯合學習檢測與跨幀關聯,提高短時遮擋、快速運動等場景下的魯棒性。
在實際系統中,小目標、密集目標和視頻檢測往往不是孤立的問題,而是同時出現:例如城市道路監控中的遠處行人/車輛、車站廣場中的密集人群、產線視頻中的高速運動零件。這也決定了,高質量的目標檢測模塊,除了在標準 benchmark 上有亮眼指標外,更需要在多尺度、多密度、長時間視頻等真實條件下,經受住各種複雜因素的考驗,才能真正支撐上層的行為分析、智能告警和多模態理解。
2.4 圖像分割(Image Segmentation)
有了目標檢測,我們已經可以知道“圖裡有哪些物體、它們大致在哪裡”,但很多任務還需要更精細的結構化理解:精確到每一個像素,判斷它屬於哪一類、屬於哪個實例 。例如自動駕駛中要知道哪些像素是路、哪些是人和車;摳圖工具要把頭髮絲和背景分得乾乾淨淨;醫學圖像裡要精確描出腫瘤和器官的邊界。這類任務統稱為圖像分割,它直接在像素層面輸出語義或實例標籤,相比檢測提供了更細粒度的空間結構信息。
從產品角度看,圖像分割是“像素級結構化”的核心能力:摳圖和背景替換工具依賴它決定哪些像素需要保留;自動駕駛的感知模塊依賴它構建精細的“可行駛區域 + 障礙物”地圖;醫學影像軟件依賴它測量病灶大小、形狀和體積;遙感平臺依賴它區分農田、水體、建築、道路等地物。下面我們從 場景 、原理和模型三個角度來梳理圖像分割,並在後續子項中展開語義/實例/全景/大模型分割等方向。
- 場景
- 內容編輯與摳圖:人像摳圖、頭髮絲級別的背景替換、物體摳出和分層編輯,用於圖片美化、短視頻特效、廣告創意製作。
- 自動駕駛與機器人:對每個像素標註路面、車道線、行人、車輛、護欄、建築、天空等,用於路徑規劃、碰撞預警和環境建模。
- 醫學影像分析:在 CT、MRI、超聲等圖像中精確分割器官、腫瘤、病灶區域,支持輔助診斷、手術規劃和療效評估。
- 遙感與地理信息:在衛星/航拍圖中分割農田、水體、道路、建築、林地等地物,支持國土規劃、土地利用監測和災害評估。
- 原理 圖像分割本質上是“密集預測”,對輸入圖像通過編碼器(Backbone)提取多尺度特徵,再通過解碼器或上採樣模塊,將特徵圖逐步還原到與輸入同尺寸的分割圖,在每個像素位置上輸出一個語義或實例標籤。
- 語義分割(Semantic Segmentation) :為每個像素分配一個語義類別(如路、人、車、天空),不區分同類的不同個體,適合描述“場景組成”。
- 實例分割(Instance Segmentation) :在語義信息之上進一步區分同類不同實例,為“每一輛車、每一個人”生成獨立掩膜,是檢測與分割的結合。
- 全景分割(Panoptic Segmentation) :統一處理“可數的物體(thing,如人、車)”與“不可數的背景(stuff,如路、天空)”,為每個像素同時給出語義標籤和實例 ID。 與檢測相比,分割對空間細節與邊界質量更加敏感,需要更豐富的多尺度上下文信息和更精細的上採樣/融合策略。
- 模型 經典到最新的分割模型大致沿著“FCN → 編碼器–解碼器 → 多尺度上下文 → 檢測+分割一體化 → 大模型分割”的路線演化:
- 語義分割:FCN、U‑Net 及其變體、DeepLab 系列(DeepLabv3/v3+)、PSPNet 等,通過空洞卷積、金字塔池化、跳躍連接等方式獲取多尺度上下文和精細邊界。
- 實例/全景分割:Mask R‑CNN、Panoptic FPN、Mask2Former 等,將檢測頭與分割頭結合,實現目標級分割和全景分割。
- 大模型與通用分割:Segment Anything Model (SAM) 等基礎分割模型,將分割從“每個任務單獨訓練”提升為“一個模型適配多數分割場景”,支持交互式、提示驅動(prompt‑based)的分割。
總體而言,圖像分割相比目標檢測提供了更精細的空間結構表達,是構建高可靠感知系統和高級編輯工具時不可或缺的一環。下面,我們從 語義分割與實例分割, 全景分割與檢測一體化, 以及通用分割, 大模型, 與無監督分割三個方向展開。
2.4.1 語義分割與實例分割:從“像素類別”到“像素實例”
語義分割(Semantic Segmentation) 的目標,是為圖像中的每一個像素指定一個語義類別,使得網絡學會“這片區域是路,那片區域是車,這裡是人,那邊是天空和建築”。經典做法通常採用編碼器–解碼器結構:編碼器(如 ResNet、EfficientNet、Swin Transformer 等)提取逐漸下采樣的高層特徵,解碼器通過上採樣、跳躍連接(skip connection)和多尺度融合,將粗糙的高層語義特徵與底層細節結合,還原到原始分辨率。FCN 首次將這種密集預測形式系統化,U‑Net 通過對稱的 U 型結構與大量 skip connection 在醫學影像中取得了巨大成功;DeepLab 系列通過空洞卷積(dilated convolution)和 ASPP(金字塔空洞池化)在不降低分辨率的情況下擴大感受野;PSPNet 則通過金字塔池化獲取全局上下文信息。這些模型共同推動了在道路場景、遙感、醫學等領域的大規模應用。
實例分割(Instance Segmentation) 進一步在像素語義標籤的基礎上區分同類不同個體:不只要知道哪些像素是“車”,還要知道這些像素分別屬於哪一輛車。最具代表性的模型是 Mask R‑CNN,它在 Faster R‑CNN 的檢測框架上增加了一個並行的分割分支:先通過檢測頭預測每個候選框的類別和位置,再在每個框內生成一個二值掩膜,從而得到“框 + 掩膜”的目標級分割結果。與純語義分割相比,這種方法能夠很好地處理物體重疊和遮擋,是人像/商品摳圖、多目標計數、細粒度編輯等任務的基礎。後續的實例分割方法在 mask 質量、多尺度與速度上不斷改進,也出現了基於 anchor‑free 和 Transformer 的新架構,但“檢測 + 局部分割”的思路仍然非常主流。
在產品層面,語義分割通常出現在“場景級”的應用中,例如自動駕駛道路分割、遙感地物識別、醫學器官分割等;實例分割則更常用於“物體級”摳圖、計數和編輯,例如一鍵選中並分離每一輛車、每一個人、每一件商品。兩者結合,可以為上層任務提供既精細又結構化的空間信息。
僅做語義分割會把同類對象混在一起(所有“車”像素都屬於同一個類);僅做實例分割又往往只關注可數的“東西”(things,如人、車、動物),而忽視大面積的不可數“背景”(stuff,如路、草地、天空)。在很多場景中,我們既需要知道每一個對象的實例級掩膜 ,又想了解 整體場景構成 。這就催生了全景分割(Panoptic Segmentation) :為每一個像素同時給出語義類和實例 ID,實現對 thing + stuff 的統一建模。
早期的全景分割系統通常通過“語義分割模型 + 實例分割模型 + 後處理合成”的方式實現:先用一個網絡預測每個像素的語義類別,再用另一個網絡輸出各個實例的掩膜與類別,最後通過一套規則(如優先級、重疊處理)將兩者合併為一個一致的全景分割結果。Panoptic FPN 代表了一條工程上更優雅的路徑:在一個共享 Backbone 與特徵金字塔(FPN)上,分別掛載語義分割頭和實例分割頭,通過聯合訓練與特徵共享,同時得到兩種輸出,再通過輕量的後處理將它們融合。這樣不僅提高了效率,也增強了語義和實例之間的一致性。
在模型層面,隨著檢測/分割一體化與 Transformer 架構的發展,出現瞭如 Mask2Former 等統一的全景分割框架:它們傾向於使用一套通用的“query + mask decoder”結構,在同一網絡中同時預測語義、實例乃至其他下游任務的掩膜,從而在架構上大幅簡化系統、方便多任務擴展。對於自動駕駛、機器人導航、AR 場景理解等複雜任務來說,全景分割提供了一種更接近“人眼主觀感受”的完整場景描述,讓上層決策和規劃可以在更準確的空間語義上進行。
在產品形態上,全景分割往往內嵌在自動駕駛、機器人系統和高端視覺分析平臺中,用戶未必直接感知到“全景分割”這個概念,但會真實受益於更穩健的場景理解和更自然的交互體驗。
2.4.2 通用分割與無監督分割:從任務定製到“Segment Anything”
傳統分割模型往往圍繞特定數據集和任務訓練:比如“道路場景 19 類語義分割”“某種腫瘤分割”“某幾類商品分割”等,每換一個任務就要重新標註、重新訓練。在實際業務中,這種強依賴精標數據的方式代價巨大,並且難以覆蓋長尾類別和不斷湧現的新場景。近年來,隨著大規模預訓練視覺模型和提示驅動(prompt‑based)範式的發展,出現了以 Segment Anything Model (SAM) 為代表的通用分割大模型 ,試圖把分割能力從“任務定製”提升為“基礎設施”。
以 SAM 為例,它通過一個強大的圖像編碼器(通常是大規模預訓練的 ViT)學習全圖的通用特徵,再通過輕量的提示編碼器和掩膜解碼器,將用戶給出的點、框、文本提示等轉化為分割結果。在訓練階段,SAM 利用了海量、多源、多任務的掩膜標註,使得模型學到的是一種“泛化的分割能力”,而不是對某個數據集標籤的死記硬背;在使用階段,用戶只需給出極少量提示(一個點或者一個粗框),就能在各種未見過的圖像類型和物體類別上得到質量較高的掩膜。這種範式大大降低了構建新分割應用的門檻,也為無監督/弱監督場景提供了強有力的工具。
與之相關的,是更廣義的無監督 / 自監督分割方向:不依賴或極少依賴人工掩膜,通過圖像內部的相似性、時序一致性、多視角約束等信號,自動將圖像劃分為若干有意義的區域。早期工作多側重於“視覺聚類”和區域提議(proposal generation),如今則更多地被大模型內化為一種表徵學習方式,為下游的分割任務提供良好的初始化。結合 CLIP 等文本–圖像對比學習模型,越來越多的方法能夠在“只給文本類別名稱、不提供掩膜標註”的條件下,進行零樣本或少樣本分割,為冷啟動場景和長尾類提供新解法。
在實際產品中,通用分割大模型往往以“交互式摳圖工具”“智能選區”“一鍵摳背景”等形式出現,也逐步被整合進醫學、遙感、工業等領域的專業軟件中,作為半自動標註與輔助分割的加速器。與傳統定製模型相比,它們不一定在某個特定任務上達到極致,但在“什麼都能做一點、多場景快速落地”上有顯著優勢,也為後續構建真正的多模態基礎視覺模型打下了基礎。
2.5 關鍵點檢測與動作識別(Keypoint Detection & Action Recognition)
在分類、檢測、分割之後,我們已經可以知道“圖裡有什麼、在哪兒、每個像素屬於什麼”。但在很多真實任務中,業務關心的不僅是“物體存在與位置”,而是姿態和動作 :一個人是在走路還是在奔跑?這隻手是否舉起、是否做出某個手勢?工人是否正確佩戴安全設備、執行規範動作?運動員的技術動作是否標準?這些問題需要我們進一步理解 物體內部的結構與時序變化 。
關鍵點檢測與動作識別就是面向這一需求的兩層能力:
- 關鍵點檢測(Keypoint Detection) :在圖像或視頻幀上,預測目標(通常是人體、手部、面部或特定機械結構)的若干“骨架點”(如關節、指尖、五官),得到一個精細的結構化姿態表示(pose)。
- 動作識別(Action Recognition) :在時序上分析這些關鍵點或外觀特徵隨時間的變化,判斷“這個人/這群人正在做什麼動作或行為”。
從產品視角看,這一能力廣泛服務於:人機交互(手勢控制)、體育分析(技術動作評估)、安防(跌倒檢測、打架/奔跑等異常行為識別)、工業安全(違規動作檢測)、虛擬人驅動(依靠人體/面部關鍵點驅動 3D 骨骼與動畫)等場景。下面我們從 場景 、原理和模型三個角度梳理這一層能力,並在子節中分別展開關鍵點檢測與動作識別。
- 場景
- 人機交互與 AR/VR:通過手勢識別、身體姿態檢測,實現“比劃一下就能控制”的自然交互,或在 AR/VR 中實時驅動虛擬形象。
- 體育訓練與運動分析:對跑步、跳高、投籃、舉重等動作進行關鍵點追蹤與角度分析,給出技術動作評估與糾錯建議。
- 安防與公共安全:檢測跌倒、打架、劇烈奔跑、翻越護欄等異常行為,用於及時告警;在工地、廠區中識別是否規範操作。
- 工業與人機協作:檢測工人是否按規範姿態操作、與機器人協作時的安全距離、是否出現危險動作。
- 面部/表情驅動與虛擬人:通過面部關鍵點捕捉表情細節,用於表情遷移、數字人驅動、視頻會議虛擬形象等。
- 原理 兩類任務分別側重空間結構與時序變化,但本質上都是在高維特徵空間中做結構化預測:
- 關鍵點檢測:在圖像上定位一組預定義關鍵點(如 17/25 個人體關節、21 個手部關節、68/106 個面部關鍵點),常用方式是在特徵圖上預測每個關鍵點的熱力圖(heatmap),再通過峰值位置反推座標;多人的場景下,還需要進行“關節到人的組裝”。
- 單幀/短時動作識別:基於單張圖或短時間窗口,通過人體姿態(關鍵點)和外觀特徵,判斷該幀/該片段中發生的動作類別(如走、跑、舉手、揮手、坐下等)。
- 時序動作識別:在更長的時間尺度上,分析特徵序列(圖像特徵、關鍵點序列或光流等),建模動作的起始、持續與結束,識別“正在打電話”“正在做俯臥撐”“兩人互相推搡”等複雜行為。
- 結構化表示:關鍵點序列提供了一種比原始像素更緊湊、更穩定的結構化表示,便於在動作識別中處理視角變化、背景干擾和外觀差異。
- 模型 常見模型大致沿著“卷積/Transformer 特徵提取 + 關鍵點/時序頭”這一統一範式發展:
- 關鍵點檢測:OpenPose 系列、Hourglass Network、HRNet、基於自頂向下(先檢測人再估計姿態)和自底向上(先檢測關節再組裝)兩大分支;近年來也有基於 Transformer 的姿態估計器。
- 視頻動作識別:基於 2D/3D CNN 的視頻模型(I3D、SlowFast 等)、基於骨架的 GCN 模型(ST‑GCN 等,直接在關鍵點圖上建模時空關係)、以及基於視頻 Transformer(Video Swin、TimeSformer 等)的端到端方案。
- 統一多任務與大模型:在通用視覺 Backbone 上同時輸出檢測、分割、關鍵點和動作標籤,或利用多模態大模型通過文本提示直接理解“這個人在做什麼動作”,將結構化預測與語義理解連接起來。
下面我們分別從關鍵點檢測與姿態估計以及動作識別與行為理解兩個方向展開。
2.5.1 關鍵點檢測與姿態估計:給人和物“畫骨架”
關鍵點檢測(也常被稱為姿態估計,Pose Estimation)關注的是 單幀或單幅圖像中的空間結構 :在二維圖像中找到一組具有語義意義的關鍵點,並將它們連接成骨架。例如,在人體姿態估計中,我們通常需要檢測頭部、肩膀、肘、腕、髖、膝、踝等關節;在面部姿態中則是眼角、嘴角、鼻尖、臉廓等;在手部姿態中則是指根、指關節、指尖。對於機械臂、關節結構件等非人體對象,也可以同樣定義一套關鍵點體系。
在模型設計上,關鍵點檢測常用的是 “特徵提取 + 熱力圖預測”範式:
- 首先使用 CNN 或視覺 Transformer(如 ResNet、HRNet、Swin 等)對輸入圖像提取多尺度特徵。
- 然後通過一個解碼頭或多層卷積,為每一個關鍵點類型輸出一張熱力圖(heatmap),其中每個像素值表示“該位置是該關鍵點的可能性”。
- 推理階段,通常取每張熱力圖的峰值位置作為關鍵點座標,並通過雙線性插值、局部擬合等方式進行亞像素級優化。
針對多人場景,姿態估計方法大致分為兩路:
- 自頂向下(Top‑down) :先使用行人檢測器在圖中找到每個人的邊界框,再對每個框內的圖像分別做單人姿態估計。這種方式對單人精度高、框架簡單,但在多人密集場景中計算代價大、對檢測質量敏感。代表系統包括許多基於 Faster R‑CNN/YOLO + Hourglass/HRNet 的組合。
- 自底向上(Bottom‑up) :不先區分每個人,而是在全圖上直接預測所有潛在關鍵點(及其類型),同時預測關鍵點之間的連接關係或親和場(如 OpenPose 的 PAF)。然後通過圖匹配/聚類算法,將關鍵點組裝成多個獨立的人體骨架。這類方法在多人密集場景中更高效、對人數規模更魯棒,但組裝過程複雜,對連接質量敏感。
近年來,基於 Transformer 的姿態估計模型也逐漸出現,將關鍵點檢測看作一組“查詢–響應”任務,與 DETR 類似,可以在架構上統一對象檢測與姿態估計。在工程應用中,關鍵點檢測能力通常被封裝為“人體/手勢/面部關鍵點 SDK 或 API”,上游應用只需傳入圖像或視頻幀,即可獲取結構化的骨架座標,用於後續的動作識別、交互控制或動畫驅動。
2.5.2 動作識別與行為理解:讓“骨架”動起來
在得到關鍵點或高層視覺特徵之後,下一步就是理解 時間維度上的變化 ——也就是動作識別(Action Recognition)和行為分析(Behavior Understanding)。與關鍵點檢測不同,動作識別不再侷限於單幀;它關心的是一段時間內特徵的演化模式:從“抬手”到“揮手”,從“走路”到“奔跑”,從“站立”到“跌倒”。
在輸入表示上,大致有三條路線:
- 基於原始 視頻幀 /光流 :直接對視頻幀序列建模,或額外引入光流(描述局部運動速度的場)作為輸入,讓模型從外觀 + 運動信息中聯合學習。
- 基於骨架/關鍵點序列 :先用姿態估計得到人體關鍵點座標序列,再在“時空骨架圖”上建模,弱化背景與光照干擾,更關注人體結構與運動模式。
- 多模態融合 :將視頻特徵、關鍵點序列、甚至音頻、文本等多模態一起納入,處理複雜行為場景(如多人互動、事件級動作)。
對應地,模型結構也呈現出多樣化發展:
- 早期的動作識別主要依賴 2D CNN + 時間 n 池化 或 3D CNN (如 I3D、C3D):前者對每一幀提特徵再在時間維上做池化或 RNN;後者直接在空間和時間上做三維卷積,捕捉短時運動模式。
- 針對骨架序列,典型方法是 時空圖卷積網絡(ST ‑ GCN) :把人體關鍵點看作圖結構節點,關節之間的連接是邊,在時間維上也連邊,通過圖卷積在時空圖上傳播信息,從而學習動作模式。這類方法輕量、對背景魯棒,適合在資源有限的設備上部署。
- 近年來, 視頻 Transformer (如 TimeSformer、Video Swin)在動作識別中表現突出,它們將視頻切分為時空 patch,通過自注意力機制建模長時間依賴,能夠更好地捕捉複雜動作與多目標交互。
在業務側,動作識別往往會與檢測、跟蹤、關鍵點檢測結合,形成端到端的行為分析系統:
- 在安防中,先檢測並跟蹤人員,再對每條軌跡的關鍵點序列進行動作分類,實現跌倒檢測、打架/奔跑識別等;
- 在體育和健身應用中,通過關鍵點序列分析動作是否標準、幅度是否合適,並給出糾正建議;
- 在人機交互場景中,對實時姿態流進行輕量級動作分類,實現揮手、比心、手勢指令等交互;
- 在工業安全中,對工人操作動作進行持續監測,識別危險姿態(如俯身進入危險區、越過安全線等)。
面向未來,多模態大模型正在將“動作識別”提升為更高層的“事件與意圖理解”:模型不僅可以標註“走路、跑步、打電話”,還能夠回答“這個人似乎在示意招呼某人”“這兩人正在發生爭執”等更接近日常語言的描述。關鍵點檢測和動作識別在其中,作為重要的結構化運動線索,與外觀特徵和語言提示一起,共同支撐更復雜的時空理解能力。
2.6 開放詞彙 / 開放世界 / 開放域檢測
(Open‑Vocabulary / Open‑World / Open‑Domain Detection)
前面的檢測與分割能力,基本都默認一個前提: 訓練和推理時的類別集合是固定的 。也就是說,模型在訓練階段就完整地見過“所有要識別的類別”,推理時只需要在這套封閉標籤裡做選擇。但真實世界遠比數據集複雜:新商品、新品牌、新路牌、新物種、新場景隨時出現,不可能為每個新類都準備充足的標註數據重新訓練檢測器。這就催生了 開放詞彙 / 開放世界 / 開放域檢測 :在訓練數據只覆蓋有限“已知類”的情況下,讓模型在推理時仍然能夠感知、定位和識別 未見的新類 ,並且在視覺風格和拍攝域(domain)變化時保持魯棒性。
你可以把這一層理解為:在傳統檢測之上,加入“對語言空間與開放世界的對齊和泛化能力”。模型不再只會說“這是 80 類 COCO 之一”,而是可以在任意文本描述的空間裡理解和檢索目標,例如“檢測圖裡所有‘紅色運動鞋’”“標出所有‘疑似小型飛行器’”,即便這些精細類別在訓練集中從未顯式出現。下面我們從 場景 、原理和模型三個角度來梳理這一層,並在子小節中分別展開開放詞彙檢測、開放世界檢測和開放域泛化。
- 場景
- 通用場景理解 API:用戶給出任意自然語言描述(類別詞或短句),系統在任意風格的圖像中返回對應目標的檢測框或分割掩膜,例如“圖中所有安全帽”“所有疑似品牌 logo”“所有帶輪子的物體”。
- 大規模商品 / 物種識別:電商中不斷上新的長尾商品、自然界中數量巨大的動植物物種,訓練數據只能覆蓋一部分已知類,但系統需要對海量新類進行定位與粗識別,並支持通過文本或圖像檢索。
- 跨域安防 / 自動駕駛感知:訓練數據多來自白天城市道路/少數攝像頭視角,實際部署卻面臨不同城市、鄉村、高速、極端天氣、紅外/魚眼攝像頭等“新域”,其中還會出現訓練集中從未標註過的新型目標(新款車型、新交通設施、新類型障礙物)。
- 原理 這類方法的核心,是用視覺–語言對齊的嵌入空間替代傳統的“固定 one‑hot 類別頭”,並通過多種機制處理“未見類”和“新域”:
- 開放詞彙檢測(Open‑Vocabulary Detection):在訓練階段,利用大規模圖文對(image–text pairs)預訓練得到類似 CLIP 的對齊空間,使得圖像區域和文本嵌入可以直接在同一語義空間中做相似度匹配;檢測頭不再輸出固定的類別 logit,而是輸出一個區域特徵向量,與任意文本描述向量進行對比,從而支持“訓練只見部分類別,推理可指定任意文本類別”。
- 開放世界檢測(Open‑World Detection):進一步處理“訓練集中完全沒有標註的新類”,要求模型可以將這類目標檢測為“未知類(unknown)”,並在後續通過交互標註或持續學習,把這些未知類逐步納入已知類別集合,形成一個可以不斷擴充類目的在線學習系統。
- 開放域 / 跨域檢測(Open‑Domain Detection):面對圖像風格、成像設備、環境條件等大幅變化(domain shift),通過領域自適應(Domain Adaptation)、領域泛化(Domain Generalization)等技術,讓檢測器在未見過的新域中保持穩定檢測性能;常見手段包括對抗性域對齊、多域訓練、風格隨機化、元學習等。
- 分割與檢測一體的開放詞彙:將上述思路擴展到像素級,對任意文本描述生成分割掩膜(open‑vocabulary segmentation),通過 Region–Word 或 Mask–Word 對齊損失,實現“用自然語言描述一個區域/物體,就能得到對應 mask 或框”。
- 模型 當前開放詞彙 / 開放世界 / 開放域檢測的主流技術路線,基本圍繞“大規模視覺–語言預訓練 + 檢測頭適配 + 域泛化機制”展開:
- CLIP‑based 檢測器:以 CLIP 風格的圖像編碼器和文本編碼器為基礎,在區域級特徵(ROI、特徵圖 patch、mask 區域)與文本嵌入之間應用對比學習和 Region–Word 對齊損失;典型實現包括在 Faster R‑CNN / RetinaNet / YOLO / DETR 等架構上替換或擴展分類頭,使其以“cosine 相似度 + 文本嵌入”方式輸出類別分數。
- Caption‑driven / Prompt‑based Detection:利用大規模圖文描述(caption)數據,為圖像中的區域或 mask 自動生成文字描述,再用這些自動生成的文字與檢測/分割區域對齊訓練,從而減少對人工類別標籤的依賴;推理時則通過自然語言 prompt(如“所有穿紅色衣服的人”“所有電動車”)驅動檢測/分割。
- Open‑World Detection 系列工作:在傳統檢測框架中顯式引入“未知類(unknown)”建模、漸進式類別擴展和增量學習機制,一部分方法通過度量空間的距離與不確定性估計來判斷“是否為未知類”,另一部分引入記憶庫與在線重訓練,使系統能隨時間積累新類別知識。
- 域自適應 / 域泛化檢測:在 Backbone 和檢測頭層面增加域判別器、對抗性損失、多域 batch normalization、風格隨機化增強等模塊,使檢測器在不同域之間學習到更域不變的表示;也有工作在 Transformer 檢測框架(如 Deformable DETR)上引入多源域訓練和元學習策略,提升跨域泛化能力。
- 通用 / Foundation 檢測模型:把檢測問題上升到“基礎模型”層面,預訓練一個在類別和域上都儘可能通用的 Detection Foundation Model,再通過輕量微調或文本 prompt 適配特定場景;這類模型通常結合大規模檢測標註、多源圖文對、甚至視頻數據,目標是讓“任意文本 + 任意風格圖像”的通用理解成為可能。
在具體產品形態上,開放詞彙/開放世界/開放域檢測往往體現為“更自然、更少限制”的視覺接口:用戶不必提前約定一小撮固定標籤,而是可以用自然語言描述想找的目標;系統也不需要為每個業務場景從零開始重訓檢測器,而是基於統一的通用模型,通過 prompt 或少量樣本快速適配。對於大規模商品 / 物種識別、全球化部署的安防與自動駕駛感知系統而言,這一層能力正在成為從“封閉數據集性能”走向“真實開放世界可用性”的關鍵跳板。
2.6.1 開放詞彙檢測:從固定類別頭到文本驅動類別空間
開放詞彙檢測(Open‑Vocabulary Detection)的出發點,是突破傳統檢測中“固定類別頭”的限制。以往的檢測器在頂層接一個大小固定的分類層(對應訓練集中的 N 個類別),訓練完成後只能在這 N 個類別中選擇;而開放詞彙檢測則通過引入文本, 編碼器, 和共享的語義嵌入空間,讓檢測頭輸出的區域特徵可以與任意文本描述進行相似度對比,從而在推理時接納未見過的新類別。
典型做法是使用類似 CLIP 的視覺–語言預訓練模型:
- 文本端:對類別名稱或自然語言描述(如“person”、“red sports car”、“yellow construction helmet”)進行編碼,得到文本向量。
- 視覺端:在檢測框架(Faster R‑CNN、RetinaNet、YOLO、DETR 等)中,對每個候選區域或特徵點提取區域特徵向量。
- 對齊訓練:通過對比損失、Region–Word 對齊損失,使同一語義的文本和區域特徵在嵌入空間中靠近,不同語義的向量遠離。訓練時即便只對一部分類別提供顯式框標註,也可以利用圖文對或圖像 caption 擴展語義覆蓋。
推理階段,系統不再依賴訓練時固定的一組類名,而是允許用戶在線提供任意類別詞或自然語言描述,通過文本編碼器轉為嵌入,再與區域特徵做相似度匹配。這使得檢測器可以在不重新訓練的前提下,支持諸如“檢測所有滑板”“檢測所有綠植”“檢測所有安全相關設備”等靈活需求,即便某些具體類目在訓練集中從未出現過完整標註,只要語義上與預訓練的圖文空間有重疊,就能被一定程度地識別和定位。
在工程實踐中,開放詞彙檢測需要在效果與效率之間平衡:一方面,保持與大規模預訓練的視覺–語言 Backbone 的語義對齊;另一方面,又要承載檢測任務對多尺度、實時性的要求。主流 CLIP‑based 檢測器往往採用“預計算文本嵌入 + 高效向量相似度計算”的方式,避免在在線服務中反覆編碼文本,同時對區域特徵進行量化或蒸餾,兼顧精度和推理速度。
2.6.2 開放世界檢測:從“未見類”到“可學習的未知”
開放世界檢測(Open‑World Detection)在開放詞彙的基礎上,進一步要求模型顯式處理“未知類” :訓練數據中只標註了部分類別,其餘物體要麼未被標註,要麼被統稱為背景;推理時,這些“未被標註的真實物體”既不應該被簡單視為背景,也不應被錯誤歸入已知類別,而應作為“未知類(unknown)”被檢測出來,並具備後續轉化為“新已知類”的可能。
在建模上,開放世界檢測通常需要解決三個問題:
- 未知類感知 :如何在訓練階段避免將所有未標註目標都學成“背景”?常見做法包括:引入顯式“未知類”槽位,通過負例挖掘和不確定性建模讓模型學會在低置信度區域輸出“unknown”;或者利用無標註數據和自監督機制,對高置信度的潛在目標區域進行聚類和偽標籤生成。
- 錯誤歸類控制 :模型需要在“寧可判為 unknown,也不要錯誤歸入錯誤已知類”之間做權衡,這涉及到損失設計(如 margin、開放集判別)、決策閾值和後處理策略。
- 漸進式類別擴展 :當業務方對一批“unknown”目標人工標註出新類別後,模型應能夠通過增量學習將這些新類別納入“已知類”集合,而不顯著遺忘舊類。為此,很多工作引入了記憶庫、蒸餾損失、參數隔離或重放機制,實現對新類別的穩定吸收。
從產品視角看,開放世界檢測特別適合那些類目不斷增長、長尾極度嚴重的場景,例如自然物種識別、新品快速上新的商品識別、複雜安防場景中的異常目標檢測等。系統可以先用開放世界檢測將“任何非背景的可疑目標”標出,並逐步通過人工或半自動標註,將其中有價值的聚類升級為正式類目,從而形成一個“類目可持續生長”的檢測系統,而不是被固定數據集束縛。
2.6.3 開放域 / 開放分佈檢測:跨風格、跨設備、跨場景的魯棒性
即使類別集合保持不變,檢測器仍然會在現實部署中遭遇嚴重的 域偏移(Domain Shift) :訓練數據可能來自少數城市的白天高清攝像頭,而部署環境卻包含不同國家、鄉村、高速路、隧道、夜間、雨雪、低分辨率攝像頭、魚眼鏡頭甚至紅外成像;電商商品攝影與用戶實拍、廣告圖/插畫/動漫風格之間也存在巨大差異。開放域檢測(Open‑Domain Detection)關注的正是:在圖像分佈發生顯著變化的條件下,保持檢測性能的穩定與可靠。
典型的技術路徑包括:
- 領域自適應(Domain Adaptation) :在擁有目標域無標註數據或少量標註數據的前提下,通過對抗性域對齊(在特徵空間上混淆源域/目標域)、多級域對齊(圖像風格、特徵、檢測頭輸出)、風格遷移(如將源域圖像風格遷移到目標域)等方式,讓模型學到對域不敏感的特徵。
- 領域泛化(Domain Generalization) :在僅有多個源域數據、沒有目標域數據的前提下,利用多域訓練、風格隨機化、特徵擾動、元學習等手段,使模型在訓練階段就儘可能暴露於多樣化分佈,提升對未知新域的泛化能力。
- 通用 / Foundation 檢測模型 :通過在極大規模、多源、多風格數據上預訓練檢測 Backbone 和頭部結構(包括自然圖像、視頻幀、合成數據、跨模態數據等),再在特定業務場景輕量微調,從而獲得比“單域訓練”更強的開放域魯棒性。
這些開放域機制往往與開放詞彙/開放世界能力相互疊加:一個面向真實世界的通用檢測系統,既要能聽懂用戶的自然語言類別描述(開放詞彙),又要能對新出現的目標給出合理的“未知”判斷和漸進吸收(開放世界),還要能在不同國家、不同設備、不同天氣和風格下保持性能(開放域)。在工程落地中,這三者並不是彼此孤立的研究方向,而是共同構成了從“封閉 benchmark”邁向“開放世界可用”的關鍵能力組合。
2.7 視覺–語言任務(Vision–Language Tasks)
前面的章節主要圍繞“單模態視覺”展開:輸入是一張圖像,輸出是檢測框、分割掩膜、類別標籤或質量分數。而在很多真實應用中,視覺信息並不是孤立存在的——一張圖往往伴隨標題、說明文字、對話或搜索查詢;用戶想問的是“圖裡在講什麼”“這張圖和這句話匹不匹配”。視覺–語言任務正是解決這類問題:它們以圖像 + 文本為輸入或輸出,通過 跨模態對齊與聯合建模 ,讓系統能夠“看圖說話”“看圖回答問題”“用文字找圖 / 用圖找文”。
從產品視角看,視覺–語言模型(VLM)是多模態系統的中樞能力:搜索引擎依賴它實現“以文搜圖 / 以圖搜文”;內容平臺用它做智能配圖、廣告審核、圖文一致性檢查;多模態助手則將其作為基礎能力,實現“看圖聊天”“對文檔/截圖提問”等功能。下面我們從 場景 、原理和模型三個角度梳理這一層,並在後續小節中分別展開圖像描述、視覺問答與圖文檢索。
- 場景
- 圖像描述(Image Captioning):為圖片自動生成一兩句自然語言描述,用於無障礙輔助閱讀、智能相冊說明、搜索索引豐富。
- 圖像問答(VQA):用戶針對圖片提出自然語言問題(“這個人拿著什麼?”“車牌號是多少?”),系統給出精準回答,可用於教育、輔助決策和多模態助手。
- 圖文檢索(Cross‑modal Retrieval):以文本檢索相關圖片(Text‑to‑Image)、以圖片檢索相關文本(Image‑to‑Text),支撐“以文搜圖 / 以圖搜文”搜索、創意選圖和廣告投放審核。
- 圖文一致性與審核:判斷圖片與標題/廣告語是否相符,有沒有“圖文不符”“誘導性描述”等風險,用於內容審核和品牌安全。
- 原理 核心問題是:如何把圖像和文本映射到 同一個語義空間 ,並在這個空間內進行對齊與推理:
- 跨模態對齊:通過聯合訓練的圖像編碼器和文本編碼器,讓對應的“圖–文對”在表示空間中彼此靠近,不相關對彼此遠離(典型如 CLIP);這為檢索、匹配提供了基礎。
- 聯合理解與生成:在對齊的表示基礎上,引入跨模態注意力,讓語言模型在“看著圖像特徵”的前提下生成文本(圖像描述)、推理和回答問題(VQA)。
- 提示化與指令化:用自然語言指令統一描述多種視覺–語言任務(“為這張圖寫標題”“回答關於這張圖的問題”“判斷這段文字是否描述了圖片”),讓一個模型通過不同提示完成多種任務。
- 模型 主流視覺–語言模型大致演化為兩類:對比學習型 VLM 與 生成式多模態 大模型 :
- 對比學習型:CLIP、ALIGN 等,將圖像和文本分別編碼成向量,通過大規模圖–文配對訓練,使其在檢索和匹配任務上表現出色,是“以文搜圖 / 以圖搜文”的基礎。
- 視覺–語言生成模型:BLIP / BLIP‑2、Flamingo、Kosmos、LLaVA 等,將視覺編碼器與大語言模型(LLM)銜接,通過跨模態注意力和指令微調,支持圖像描述、VQA、多輪對話等複雜任務。
- 通用多模態大模型:如 GPT‑4.1 with Vision、Gemini 1.5 等,進一步將視覺與更多模態(語音、代碼等)統一在一個大模型中,通過統一的接口完成檢索、問答、推理和生成。
總體而言,視覺–語言任務標誌著“視覺不再是一個單獨的感知通道”,而是與語言共同參與到更高層的知識表達和推理之中。下面,我們從 圖像描述與視覺問答 、圖文檢索與跨模態對齊兩個方向展開(這裡按內容合併為兩小節)。
2.7.1 圖像描述與視覺問答:從“看圖說話”到“看圖推理”
圖像描述(Image Captioning)的目標,是輸入一張圖像,輸出一段自然語言描述,比如“一個小女孩在草地上放風箏”。傳統做法通常採用“CNN + RNN”結構:用卷積網絡提取整圖特徵,再用 LSTM/GRU 逐詞生成描述;隨著 Transformer 和預訓練 VLM 的出現,主流範式逐漸轉向“圖像編碼器 + 文本解碼器”結構,如 BLIP / BLIP‑2、ViT + GPT 等。訓練上,模型通常在大量圖–文對上進行自迴歸訓練,有時還會採用強化學習或對比損失,優化描述的多樣性與正確性。在產品層面,圖像描述被廣泛用於無障礙閱讀(為盲人讀屏軟件生成圖片說明)、智能相冊自動加標題,以及為搜索系統提供更多文本索引。
視覺問答(VQA)則進一步把人類交互引入進來:模型的輸入不再是“圖 + 空白提示”,而是“圖 + 問題”,輸出一個簡短答案或者自然語言解釋。與圖像描述相比,VQA 更強調可控性與推理能力 :問題可以關注局部細節(“男人的帽子是什麼顏色?”)、關係(“哪輛車離路口更近?”)、計數(“有幾隻狗?”),甚至需要外部知識(“這道菜屬於哪種菜系?”)。早期 VQA 模型通常使用圖像編碼器 + 問題編碼器 + 融合模塊(如雙線性池化、注意力)+ 分類頭,輸出一個有限詞表中的答案;現代多模態大模型則直接用圖像編碼器 + LLM,在“看圖”的基礎上進行自然語言生成,在開放式回答和多輪對話上有明顯優勢。
兩者在統一的 VLM 框架下可以被視為不同的“提示模板”:
- Captioning:
<圖像> + "Describe this image in one sentence."→ 文本; - VQA:
<圖像> + "Q: ... A:"→ 文本。
通過指令微調(Instruction Tuning),同一個多模態大模型可以兼容描述、問答、解釋、打標籤等多種任務,這也是現代 VLM 產品(多模態助手、圖像問答機器人等)的基礎工程思路。
2.7.2 圖文檢索與跨模態對齊:以文搜圖 & 以圖搜文
圖文檢索(Cross‑modal Retrieval)解決的是另一個高頻需求:給定一段文本,找到匹配的圖片(Text‑to‑Image Retrieval);或給定一張圖,找到相關的文字描述、商品信息、新聞報道等(Image‑to‑Text Retrieval)。這些能力構成了“以文搜圖 / 以圖搜文”“看圖找商品”“給新聞配圖”等產品的核心。
核心技術是 跨模態對齊 :以 CLIP 為代表的模型,對圖像和文本分別使用各自的編碼器(如 ViT 和 Transformer 文本編碼器),在大規模圖–文配對數據上使用對比學習訓練:
- 對於同一對(圖像,文本),讓它們的向量在嵌入空間中彼此靠近;
- 對於不匹配的圖–文對,則推遠它們的向量。
訓練完成後,只需將所有圖片和文本編碼成向量,就可以通過向量檢索(最近鄰搜索)在共享空間中進行快速匹配:
- Text‑to‑Image:文本 → 文本向量 → 最近的圖像向量;
- Image‑to‑Text:圖像 → 圖像向量 → 最近的文本向量。
在工程實踐中,這類模型通常採用兩階段結構:
- 第一階段用輕量快速的雙編碼器(Bi‑Encoder,如 CLIP)做粗檢索,在億級圖像庫中快速篩選出一小部分候選;
- 第二階段可選用更強的交叉編碼器(Cross‑Encoder)或多模態大模型對候選進行精排與重排序,以提升相關性和魯棒性。
在產品側,圖文檢索與跨模態對齊被廣泛用於:圖片搜索、廣告檢索(根據廣告文案找到合適圖片)、合規審核(檢查廣告圖文是否一致)、內容推薦(基於用戶閱讀文本歷史向其推薦相關圖片/視頻)等。隨著多模態大模型的興起,這類檢索能力也逐漸被統一進更大的多模態框架中,以“自然語言指令 + 多模態記憶/向量庫”的形式,對外提供統一接口。
2.8 光學字符識別(OCR)
在很多業務中,最重要的信息既不體現在“畫面裡的物體和場景”,也不在自然語言對圖像的描述裡,而是直接寫在圖像上的 文字 :合同條款、發票金額、路牌名稱、儀表讀數、屏幕截圖上的錯誤信息等。光學字符識別(OCR)就是圍繞“圖像 + 文檔版式”的結構化理解任務:從複雜的視覺輸入中,自動檢測並識別文字內容,理解文檔的佈局和結構,進而支持搜索、統計、自動錄入和智能問答。
從產品視角看,OCR 是“把紙質/圖像信息變成可計算文本”的關鍵橋樑,是電子化、自動化與智能化辦公的基礎設施:合同審閱、票據入賬、政企檔案數字化、辦公軟件中的 PDF 轉 Word、文檔問答助手等,都建立在 OCR 能力之上。下面從 場景 、原理和模型三個角度梳理 OCR 體系,並在後續小節中展開核心方向。
- 場景
- 場景文本識別:街景中店鋪招牌、路牌、廣告牌、包裝盒文案等,用於導航、搜索、零售洞察和合規審核。
- 文檔 OCR:掃描件、傳真件、PDF、照片版合同/發票/報告等的文字識別與結構化,還原成可編輯文本。
- 專用場景:車牌識別、儀表盤讀數(電錶、水錶、氣表)、屏幕截圖文字提取、試卷/表單識別等。
- 文檔理解:在佈局複雜的長文檔中,抽取標題、段落、表格、註釋等結構,為搜索、摘要、問答奠定基礎。
- 原理 OCR 體系通常分成幾個關鍵步驟:
- 文本檢測:在圖像上檢測出所有文字區域(文本行或文本塊),輸出定位框(水平或四點多邊形),這是後續識別的輸入。
- 文本識別:對每個檢測到的文字區域進行序列識別,將像素序列轉化為字符序列(如中文、英文、數字、符號等)。
- 版式分析(Layout Analysis):在文檔場景中,識別各區域的角色(標題、正文、圖片、表格、頁眉頁腳等),恢復閱讀順序和層次結構。
- 表格結構識別:對錶格區域進行行列劃分、單元格邊界解析、合併單元格恢復,重建邏輯表格結構。
- 文檔問答(DocVQA):在 OCR 和版式理解的基礎上,讓模型能夠回答“這份合同的付款日期是什麼?”“發票的金額是多少?”這類跨區域、多步驟推理的問題。
- 模型 工程上常見的是“專用 OCR 模塊 + 文檔理解模型 + 多模態大模型”組合:
- 文本檢測與識別:
- 檢測:EAST、DBNet/DBNet++ 等基於分割或邊緣學習的方法,擅長處理彎曲文本和複雜背景;
- 識別:CRNN、RARE、SAR 等序列模型(CNN + RNN/Attention + CTC 或自迴歸解碼),支持多語種和多字體。
- 文檔版式與結構理解:
- LayoutLM / LayoutLMv2/v3、DocFormer 等,將文本內容(token)、位置信息(bounding box)和視覺特徵聯合編碼;
- Donut 等“端到端文檔理解”模型,直接從圖像到結構化輸出(如 JSON / Markdown),弱化傳統 OCR 的邊界。
- 文檔問答與多模態理解:
- 在佈局模型基礎上,疊加任務頭進行 DocVQA;
- 或直接使用多模態大模型(VLM)讀取文檔圖像,在自然語言層面完成問答和摘要,同時隱式利用 OCR 能力。
- 文本檢測與識別:
綜合來看,OCR 已經從早期“簡單的字符識別”發展為涵蓋文字 + 版式 + 結構 + 問答的整體文檔理解體系,是企業數字化、政務檔案管理和智能辦公的關鍵支柱。下面,我們從 文本檢測與識別 、 文檔版式與表格結構分析 、文檔問答與多模態 DocVQA三個方向展開。
2.8.1 文本檢測與識別:從像素到可用文本
OCR 的第一步是 文本檢測 :在輸入圖像中找到所有包含文字的區域。街景/場景文本面臨字體多樣、傾斜扭曲、光照複雜、背景干擾嚴重等挑戰;文檔場景則強調對密集文本和多欄排版的魯棒支持。EAST、DBNet 等方法通過將檢測問題轉化為“像素級分割 + 邊緣學習”,在特徵圖上預測文本概率和幾何參數,再通過後處理獲得精確的文本框(可為水平框或任意四邊形/多邊形),兼顧精度和速度。
文本識別則把每個檢測出的文本區域切下來,轉化為字符序列。經典做法以 CRNN 為代表:先用 CNN 提取特徵,再通過 RNN 或 Transformer 進行序列建模,最後使用 CTC 或注意力解碼輸出字符序列。對於不定長文本、彎曲文字和複雜語言(中英文混排、多語種),識別模型需要在視覺特徵建模和字符語言建模上同時發力。諸如 RARE、SAR 等方法會引入空間變換網絡(STN)或注意力對齊機制,以糾正幾何畸變、提升對複雜佈局的適應能力。
在工程系統中,檢測與識別通常作為兩個解耦的服務組成一條 OCR pipeline:前端檢測將圖像拆成若干文本行/塊,後端識別對每個塊做字符識別,並可疊加語言模型做錯誤糾正(如拼寫修復、數字/金額校驗)。對於車牌、儀表讀數等特定場景,還會使用專門微調的檢測/識別模型,以利用場景先驗(固定字體、有限字符集)換取更高精度和更低延遲。
2.8.2 文檔版式與表格結構分析:還原“文檔的形狀”
單純把文字識別出來還不夠,尤其在長文檔、報告、合同和票據等場景中,版式結構往往決定了信息的含義和重要性:標題與正文的層級關係、圖表與配文的位置、頁眉頁腳的作用、表格內外文段的邏輯順序等。文檔版式分析(Document Layout Analysis)的目標,就是在二維頁面上識別出不同區域的角色和邊界,並恢復出合理的閱讀順序與層級結構。
LayoutLM / LayoutLMv2/v3、DocFormer 等模型,將每個文本 token 的內容(文本 embedding)、空間位置(bounding box 座標)以及局部視覺特徵(來自 CNN/ViT)聯合編碼,通過 Transformer 建模 token 間的語義–空間關係。通過在帶版式標註的數據集上訓練,模型可以學會區分“標題/段落/列表/表格/圖片說明/頁眉頁腳”等多種區域類型,並在輸出中給出對應標籤和層級。這類模型通常作為“中間層”,為合同審閱系統、報告解析、檔案數字化平臺提供結構化的文檔骨架。
表格結構識別(Table Structure Recognition) 是版式分析中特別關鍵的一支:它不僅要檢測出表格區域,還要進一步解析行列邊界、單元格座標和合並單元格,最終重建一份邏輯表格(通常表示為 HTML、Markdown 表、或帶座標的結構化 JSON)。實現方法包括:
- 基於規則/視覺:使用線檢測、分割網絡、對象檢測等手段提取表格線和單元格區域,再進行拓撲建圖;
- 基於 Transformer:將表格區域的文本塊與幾何信息編碼成序列,直接預測單元格結構和關聯關係。
在產品上,這些能力支撐了“PDF 轉 Word/Excel”“票據/發票結構化錄入”“報表解析與指標抽取”等高價值場景,是政企辦公自動化的關鍵組件。
2.8.3 文檔問答與 DocVQA:從“讀文檔”到“問文檔”
當 OCR 與版式分析能力足夠強時,下一步自然需求就是: 不再讓人自己翻閱文檔,而是直接“問文檔” 。這就是 文檔問答(DocVQA) :模型在合同、報告、票據、說明書等複雜文檔上回答問題,比如“這份合同的生效日期是什麼時候?”“這頁報表中 2023 年 Q4 的淨利潤是多少?”“發票上的購方名稱是誰?”。
傳統 DocVQA 系統通常以“OCR + 版式模型 + QA 頭”的方式構建:
- 先使用 OCR 提取文本及座標;
- 用 LayoutLM / DocFormer 等建模文本–版式–視覺三模態關係;
- 最後在這個表示上疊加任務頭(分類 / 抽取 / span 預測),根據問題在文檔中定位答案或相關片段。
隨著多模態大模型的發展,越來越多系統開始直接使用“文檔圖像 + 問題”作為輸入,讓一個 VLM 或多模態 LLM 直接生成答案或帶引用的解釋。在這種架構下,OCR、版式、語義理解和推理能力在模型內部以端到端的方式協同工作:模型既能看到原始版式和視覺線索,又能利用語言世界知識和推理模式完成複雜問題的解答。
在產品形態上,DocVQA 通常以“合同審閱助手”“發票/報表問答”“長文檔智能問答”形式出現,幫助用戶從大量文檔中快速定位關鍵信息、自動生成摘要、進行條款比對等,大幅減輕人工審閱和信息檢索的負擔。
2.9 圖像生成與編輯(Image Generation & Editing)
前面介紹的視覺能力大多是“判別式”的:輸入圖像,輸出標籤、框、掩膜或文本;而近年來快速發展的另一條主線是 生成式視覺 :模型不再只是理解圖像,而是 創造或修改圖像 ,在給定文本/圖像條件下生成高質量、多風格的視覺內容。圖像生成與編輯正是這一方向的核心能力,支撐了從 AIGC 繪圖平臺到智能修圖/特效工具的大量產品。
從業務視角看,生成式視覺已經從“技術演示”變成切實可用的生產力工具:設計師用它做靈感草圖和細化稿;營銷團隊用它批量生成海報和廣告素材;普通用戶用它製作頭像、插畫、壁紙;視頻創作者用它做摳圖、背景替換和特效。下面我們從 場景 、原理和模型三個角度梳理這一層,並在後續小節中展開文本生成圖像、圖像到圖像與編輯能力。
- 場景
- 文本生成圖像:用戶輸入一段描述(“賽博朋克風的夜景城市”),系統自動生成符合描述的多張圖片,支持選圖與迭代修改。
- 風格遷移與圖像翻譯:將真實照片轉換為動漫/素描/油畫/水彩風格,或在不同領域間做映射(白天 ↔ 夜晚、夏天 ↔ 冬天)。
- 條件重繪與擴展:在原圖的局部進行重繪(Inpainting)、對畫面外擴(Outpainting),用於修補瑕疵、移除/添加對象、擴展構圖。
- 文本驅動編輯:用自然語言指令修改圖像(“把天空改成日落”“讓這輛車變成紅色跑車”),用戶無需掌握複雜的圖像編輯軟件。
- 原理 生成式視覺模型主要通過學習“圖像分佈”和“條件控制”來完成生成與編輯:
- 分佈建模:GAN、擴散模型(Diffusion)、Flow Matching 等從大量圖像中學習高維分佈,使得模型能從隨機噪聲中逐步“採樣”出逼真的圖像。
- 條件生成:在純圖像分佈建模基礎上,引入文本/草圖/分割圖/關鍵點/深度圖等條件,使生成過程受到外部信號約束(Text‑to‑Image、Image‑to‑Image、ControlNet 等)。
- 可控編輯:在已有圖像的潛在空間中,通過文本或局部 mask 對局部特徵進行引導和修改,實現局部重繪、風格變化、構圖調整等。
- 模型 當前主流圖像生成與編輯模型以擴散模型 + 條件控制為主:
- GAN 系列:StyleGAN 等在高分辨率人臉和樣式控制方面表現突出;但訓練不穩定、難以覆蓋複雜多模態分佈。
- 擴散模型:Stable Diffusion、Imagen、DALL·E 系列等,通過“正向加噪 + 反向去噪”的過程進行採樣,兼具質量和多樣性,是當前 Text‑to‑Image 的主力方向。
- 可控生成與編輯:ControlNet、T2I‑Adapter 等,在基礎擴散模型上疊加條件通道(邊緣、姿態、分割等),實現精確控制;結合文本引導的 Inpainting/Outpainting 實現局部編輯和畫面擴展。
- Flow Matching 與新一代生成模型:通過學習連續流場將噪聲分佈變換到圖像分佈,在效率、可控性與穩定性上探索新的平衡。
在產品層面,這些技術以即夢、阿里 qwen 圖像模型、FLUX、OpenAI 或者 Gemini nanobanana、Stable Diffusion 生態、Photoshop Generative Fill、Canva AI、剪映/CapCut 智能摳圖與特效等形態面向用戶,逐步從“玩具”演進為內容生產鏈條中的正式環節。下面,我們從 文本生成圖像 、圖像到圖像翻譯和文本驅動編輯三個方向展開。
2.9.1 文本生成圖像(Text‑to‑Image):從一句話到一張畫
文本生成圖像(Text‑to‑Image) 的核心任務是:給定一段自然語言描述,生成一張儘可能匹配其語義和風格的圖像。現代 Text‑to‑Image 模型主要基於擴散架構:
- 首先使用文本編碼器(如 CLIP Text Encoder 或 T5/LLM)將輸入文本編碼為條件向量;
- 然後在圖像潛空間中,從高噪聲狀態開始,通過多步反向去噪採樣,在每一步都利用文本條件引導生成方向;
- 最終得到符合描述的高分辨率圖像,可進一步放大或後處理。
Stable Diffusion、Imagen、DALL·E 系列等方法在大規模圖–文對上進行訓練,使模型既掌握視覺譜系(形狀、紋理、構圖、光影),又獲得一定程度的語言–視覺對齊能力(理解“風格”“材質”“構圖”等複雜描述)。在產品層面,這種能力讓“不會畫畫的人也能畫圖”:用戶只需用自然語言描述想法,系統就能給出多種視覺實現,支持迭代試探和細化。
Text‑to‑Image 模型通常同時支持多風格、多分辨率輸出:通過在訓練或推理時加入風格 token、尺寸條件等,使同一個模型在“寫實照片風、扁平插畫風、3D 渲染風”等不同風格之間切換。工程上常用的技巧包括:
- 文本提示工程(Prompt Engineering),用於細化和穩定輸出風格;
- LoRA / DreamBooth 等輕量微調技術,在通用模型上快速適配特定人物、IP 或品牌風格。
2.9.2 圖像到圖像(Image‑to‑Image):翻譯、風格遷移與局部重繪
Image‑to‑Image 任務在給定輸入圖像的基礎上,生成另一個“受其約束”的圖像版本:既保留原圖的整體結構或內容,又實現某種轉換或增強。典型形態包括:
- 圖像翻譯 / 風格遷移:在不同視覺域之間進行映射,如“照片 → 動漫”“夏天 → 冬天”“白天 → 夜晚”“素描 → 彩色圖像”。早期多基於 GAN(CycleGAN、Pix2Pix 等),現在也可以用擴散模型在條件控制下完成。
- 條件生成:以草圖、分割圖、深度圖、邊緣圖等為條件,通過 ControlNet、T2I‑Adapter 等模塊引導擴散過程,讓生成圖嚴格遵守幾何/佈局條件,同時在紋理、光影、風格上自由發揮。
- Inpainting / Outpainting:在原圖上劃定某個區域,將其視為待重繪部分(inpainting),或在畫面外延展生成新內容(outpainting),實現“填坑”“擴圖”等操作。
這類任務的關鍵是 在保留約束的前提下創造新內容 。擴散模型在這方面表現突出:在 inpainting 中,模型只對 mask 區域進行採樣,而在未被遮擋的區域保持原圖不變,通過語義理解與上下文信息,使新內容與周圍區域在風格與光影上自然融合。對於風格遷移,模型在保留輸入結構的同時,從目標風格分佈中採樣紋理和顏色,實現“換殼不換骨”。
在產品裡,Image‑to‑Image 能力支撐了大量創意工具:風格濾鏡、漫畫化、一鍵天空替換、自動美顏、舊照修復、局部修圖等,通常以高度可視化的界面呈現給用戶。
2.9.3 文本驅動圖像編輯:自然語言當“畫筆”
在傳統圖像編輯軟件中,用戶需要掌握圖層、蒙版、選區、濾鏡等一整套專業概念;而文本驅動圖像編輯(Text‑guided Editing) 嘗試用自然語言替代大部分專業操作:
- “把背景換成夜晚城市天際線”;
- “讓這個人穿黑色西裝”;
- “把這輛車變成藍色跑車,增加運動模糊效果”。
技術上,文本驅動編輯通常建立在 Text‑to‑Image 擴散模型之上,通過幾種方式實現:
- 在原圖附近的潛空間中搜索或採樣,使編輯後的圖與原圖保持高相似度,只在受文本影響的局部發生變化;
- 使用顯式 mask(用戶圈定區域),將編輯範圍限制在特定區域(這就是許多工具中的“選中區域後輸入文本指令”);
- 引入“指令控制”模塊(如 ControlNet、可學習控制 token),增強模型對編輯請求的可控性與穩定性。
即夢、FLUX、阿里 qwen 圖像模型、Stable Diffusion 生態、Canva AI 等產品都提供了類似能力:用戶通過簡單文字和少量交互即可完成複雜編輯。對專業用戶而言,這成為加速創作流程的“智能助手”;對普通用戶而言,則極大降低了圖像編輯的門檻。
2.10 圖像質量評估(Image Quality Assessment, IQA)
在底層視覺增強、壓縮編碼、圖像生成與編輯等任務中,我們經常需要回答一個看似主觀的問題: “這張圖看起來好不好?” 。手工檢查顯然無法規模化,而像 PSNR 這類傳統指標又常常與人眼主觀感受不一致。圖像質量評估(Image Quality Assessment, IQA) 的目標,就是建立一套自動化機制,對圖像的主觀/客觀質量進行評分或排序,成為連接“底層算法輸出”和“用戶真實體驗”的關鍵環節。
從系統角度看,IQA 是很多流水線中的“看門人”和“調參參考”:電商/內容平臺用它篩掉模糊、噪聲重、壓縮過度的上傳圖片;手機相機/相冊用它在連拍中挑出“最好的一張”;雲端增強和壓縮服務用它進行前後對比評估,以指導模型迭代。下面從 場景 、原理和模型三個維度梳理 IQA,並在後續小節中展開評估類型與指標/學習範式。
- 場景
- 上傳質檢與審核:對用戶上傳的圖片/視頻做質量評分,過濾嚴重模糊、曝光異常、噪聲明顯和壓縮偽影嚴重的內容。
- 智能選片與去重:在手機相冊、相機應用中,從多張相似照片中選擇清晰度、表情、構圖更好的版本,同時識別質量差或冗餘圖片用於清理。
- 增強/壓縮算法評估:在圖像增強、降噪、超分辨率、編解碼等算法 A/B 測試中,用 IQA 指標客觀衡量“哪種策略更好”,輔助參數搜索與模型選擇。
- 海報/縮略圖自動選取:在視頻或多圖集合中自動選擇視覺質量和吸引力更高的幀作為封面或海報候選。
- 原理 IQA 的核心是從兩個維度刻畫圖像質量:相對於參考圖的失真程度與 人眼主觀感知的好壞 :
- 全參考 IQA(FR‑IQA):在有高質量參考圖的前提下,將待評估圖與參考圖進行逐像素或特徵對比,衡量失真程度,用於算法研發和實驗評估。
- 無參考 IQA(NR‑IQA / Blind IQA):實際場景中更常見,沒有參考圖,只能從單張圖的統計特徵或深度特徵中推斷質量,需要模型從大量圖像與主觀評分中學習到“人眼喜歡什麼樣的圖”。
- 偽參考 / 降採樣參考:在某些場景中,可以使用壓縮前的低分辨率版本、模型預測的“理想圖”等作為近似參考,兼顧可實現性與評估精度。
- 模型 IQA 模型大致分為傳統手工特徵指標與深度學習**式質量預測**兩大類:
- 傳統指標:
- FR‑IQA:PSNR、SSIM、MS‑SSIM、FSIM 等,側重結構、對比度和相位信息,對簡單退化(如加噪、模糊)較敏感。
- 感知指標:LPIPS、DISTS 等,在深度特徵空間衡量圖像間感知差異,與人眼主觀感受有更高相關性。
- 無參考 / 學習式 IQA:
- 早期方法:BRISQUE、NIQE、BLIINDS 系列等,從自然場景統計(NSS)和手工特徵出發,訓練淺層模型預測質量分數。
- 深度 NR‑IQA:RankIQA、DBCNN、HyperIQA、MUSIQ 等,直接用 CNN / ViT 從圖像中抽取特徵,並在 MOS(Mean Opinion Score,主觀評分均值)數據上監督訓練,使輸出質量分數儘可能擬合人眼評價。
- 預訓練表徵:利用 CLIP、ViT 等大模型的特徵,作為質量預測網絡的輸入或 backbone,在有限 MOS 數據上微調,提升對複雜失真類型的泛化能力。
- 傳統指標:
整體來看,IQA 並不是“越高越好”的單一指標,而是一套與具體業務目標相關的評估體系:在某些場景(如監控增強)中,保留細節和可識別性比視覺自然更重要;在內容創作平臺中,主觀觀感和審美標準則佔主導。因此,工業界常見做法是:在通用 IQA 模型基礎上,通過少量業務數據微調或學習加權,構建“任務感知”的質量評估器。
2.10.1 評估類型:有參考、無參考與偽參考
按照是否存在高質量參考圖,IQA 可以分為三類: 全參考(FR‑IQA) 、 無參考(NR‑IQA)和偽參考 。
在 全參考 IQA 中,我們假設存在一張理想的高質量參考圖像,待評估圖是其經過壓縮、傳輸或處理後的退化版本。模型通過對兩者進行逐像素或特徵級比較,量化失真程度。PSNR 是最簡單的度量(基於均方誤差),SSIM/MS‑SSIM/FSIM 等進一步考慮亮度、對比度、結構或相位信息,在一定程度上更接近人眼感受。這類指標非常適合在算法開發階段評估編解碼、超分辨率、去噪等方法,但在真實業務中往往缺乏參考圖,應用場景有限。
無參考 IQA(Blind IQA) 是實際系統中更常見的設定:只有待評估圖像本身,沒有任何參考。早期無參考方法(如 BRISQUE、NIQE、BLIINDS 等)主要基於自然場景統計:假設高質量自然圖像在某些統計分佈上有穩定形態,失真會引起統計特徵變化,從而可以訓練模型根據這些特徵預測質量分數。深度學習時代,NR‑IQA 模型通常直接利用 CNN / ViT 提取特徵,並在帶有人眼主觀評分(MOS)的數據集上回歸質量分數或學習排序關係,使其能夠覆蓋噪聲、模糊、壓縮偽影、曝光異常等多種失真類型。
偽參考 / 降採樣參考 IQA 介於兩者之間:在沒有真正高質量參考的情況下,使用某種可獲得的近似版本(如壓縮前低分辨率圖、模型預測的“乾淨圖”)作為參考,對退化程度進行估計。這種方式常見於在線視頻質量監控、編解碼優化任務中,可以在成本與精度之間取得平衡。
2.10.2 指標與學習範式:從 PSNR 到感知質量預測
在具體實現層面,IQA 採用多種指標和學習範式來逼近人眼主觀感受。
傳統指標方面:
- PSNR 直接基於像素級誤差,簡單高效,但對人眼不敏感的變化(如輕微平移、結構保持的濾波)也會給出較大懲罰;
- SSIM、MS‑SSIM、FSIM 等從亮度、對比度、結構、相位等多個維度建模圖像相似性,對結構性失真更敏感,也一定程度反映人眼對結構信息的偏好。
感知指標方面:LPIPS、DISTS 等通過在預訓練深度網絡(VGG、AlexNet、ViT 等)內部特徵層計算向量差異,並按照不同層的重要性加權,得到一種“特徵空間中的距離”,與主觀感知相似性有更高相關性。它們特別適合作為生成式任務(超分、生成、編輯)的訓練目標或評估指標,用來衡量“看起來像不像”。
學習式質量預測方面,深度 NR‑IQA 模型(如 RankIQA、DBCNN、HyperIQA、MUSIQ 等)直接對圖像打分或排序:
- 訓練數據中,每張圖像附帶一組主觀評分(MOS),模型以此為監督訓練質量回歸或排序網絡;
- 模型結構上,多采用 CNN/ViT + 全局池化 + MLP 輸出質量分數,或輸出一組質量分佈再取期望;
- 有些方法還利用對比學習或排序學習(pairwise ranking),讓模型更關注“相對好/壞”的關係,而不是絕對分數。
隨著大規模預訓練視覺模型的普及,越來越多 IQA 方法採用“預訓練 Backbone + 輕量頭”的範式:利用 CLIP、ViT 等豐富的視覺表徵,在較少 MOS 數據上進行微調,從而在跨失真類型、跨場景上保持良好的泛化。
在工程落地中,通常會將上述多種指標組合使用:例如 FR‑IQA 指標用於實驗階段評估算法改進;深度 NR‑IQA 模型用於線上實時質檢;感知指標用於生成任務的內部優化。通過 A/B 實驗將這些自動指標與真實用戶數據(點擊率、完播率、投訴率等)對齊,逐步構建起與業務目標高度相關的“感知質量度量體系”。
3. 3D / 空間模態(3D / Spatial / XR)
隨著應用從“平面圖像/視頻”走向自動駕駛、機器人、AR/VR/XR 等場景,系統不再滿足於只看“2D 像素”,而是需要理解 真實世界的三維結構、尺度和位姿關係 。這類任務統稱為 3D / 空間模態:既包括對幾何與拓撲的精確建模,也包括在 3D 空間中的語義理解、定位導航與內容生成。它一端連接 LiDAR、RGB‑D、IMU 等多種傳感器,另一端連接自動駕駛感知模塊、機器人導航系統、ARKit/ARCore 環境模型、手機 3D 掃描建模應用以及數字孿生平臺等。
3.1 3D 感知與重建(3D Perception & Reconstruction)
在 2D 視覺裡,我們只看到了“拍成照片後的世界”;而在自動駕駛、機器人、AR/VR 等場景中,更關鍵的是: 真實世界在 3D 空間中的位置、形狀和結構 。3D 感知與重建就是要從多種傳感器(相機、LiDAR、深度相機等)出發,恢復環境的三維幾何信息,並以點雲、體素、網格(Mesh)、隱式場等形式表達出來,為路徑規劃、物理仿真、數字孿生和 3D 內容生成提供基礎。
在工程實踐中,這一層涵蓋從點雲處理到多視角幾何重建再到神經輻射場 / 神經場渲染等多個技術方向,對應著自動駕駛 3D 感知模塊、ARKit/ARCore 環境建模、手機 3D 掃描/建模應用以及數字孿生城市/園區建模平臺等產品形態。下面從 場景 、 原理 、模型三個角度展開,並進一步細分幾個關鍵子方向。
- 場景
- 自動駕駛與輔助駕駛:從車載 LiDAR 點雲和多攝像頭圖像中感知車輛、行人、路沿、車道線、交通設施等 3D 結構,用於路徑規劃和安全決策。
- 室內/室外環境掃描:利用手機/平板(結構光 / ToF / 雙目)或手持掃描儀採集多視角數據,實時構建房間、樓宇、街區的 3D 模型,用於 AR 建模、家裝設計、數字孿生。
- 數字孿生與 BIM:將實際工廠、園區、城市通過多視角影像和點雲重建成高精度 3D 模型,用於運維管理、仿真與可視化。
- 消費級 3D 掃描:手機 3D 掃描 App、一鍵“拍照變 3D 模型”工具,為 3D 打印、虛擬試穿、遊戲/影視資產製作提供原始幾何。
- 原理
- 點雲處理:將 LiDAR 或多視角重建得到的稀疏/稠密點集合視作 3D 採樣點集,對其進行濾波、配準、下采樣和特徵學習,再做分類、語義/實例分割或 3D 目標檢測。
- 多視角幾何與三維重建:通過 SfM(Structure‑from‑Motion)估計多張圖像之間的相機位姿和稀疏 3D 點雲,再通過 MVS(Multi‑View Stereo)生成稠密點雲,隨後進行網格重建與紋理貼圖。
- 神經輻射場 / 神經隱式場:使用 NeRF、Instant‑NGP、Gaussian Splatting 等方法,把 3D 場景表示為連續的體密度/顏色場或高斯粒子集合,通過體渲染或光柵化生成圖像,從多視圖監督中學習;訓練好後可以進行新視角渲染和幾何提取。
- 模型
- 點雲網絡:PointNet / PointNet++、PointCNN、DGCNN、MinkowskiNet 等直接在點或稀疏體素上學習特徵,用於點雲分類、分割與 3D 檢測。自動駕駛中常用 VoxelNet、SECOND、CenterPoint 等 3D 檢測框架,將點雲轉換為體素或 BEV(鳥瞰圖)特徵後進行檢測。
- 幾何重建工具鏈:COLMAP、OpenMVG / OpenMVS 等傳統 SfM/MVS 系統,可從多視角照片恢復相機位姿和稠密點雲,構建出高質量 Mesh。
- 神經場重建與渲染:NeRF / Instant‑NGP、Gaussian Splatting 及大量改進模型,把場景編碼在神經網絡或高斯雲中,實現高保真的新視角合成與 3D 場景重建,並逐步形成工程化產品。業界也出現瞭如「混元 3D」「Tripo」這類面向開發者和內容生產的 3D AI 服務,將 NeRF/高斯等技術封裝成雲端 API 或交互工具。
從這一層開始,傳統幾何與深度學習、隱式表示與顯式網格密切交織,既要解決「如何準確還原真實世界」的問題,又要兼顧實時性和可用性,服務更上層的 3D 場景理解、3D 生成與編輯。
3.1.1 點雲處理與 3D 目標檢測
對於自動駕駛、機器人和高精度測繪而言,LiDAR 點雲是最關鍵的 3D 傳感信息之一。點雲是一組三維座標(有時附帶反射強度、時間戳等)構成的稀疏點集,沒有規則的柵格結構,給傳統卷積帶來了挑戰。點雲處理的目標,是從這些非結構化的點中提取有用的幾何與語義信息,例如“這裡是一輛車”“這裡是路沿/地面”“這裡是一棟建築物”。
在點雲分類與分割任務中,我們往往關注:某個點(或點簇)屬於哪一類結構,如車、行人、地面、路沿、建築、植被等,或者對場景做語義/實例分割。從建模方式看,可以粗略分為三類:
- 直接點雲網絡:PointNet / PointNet++、PointCNN、DGCNN 等直接在點集上定義“對點集排列不敏感”的運算,通過局部鄰域聚合構建層級特徵,適合中小規模點雲的分類與分割。
- 體素與稀疏卷積:將點雲柵格化為 3D 體素,再用稀疏 3D CNN(如 VoxelNet、MinkowskiNet)進行卷積,兼顧結構規整性與空間稀疏性,在自動駕駛 3D 檢測中應用廣泛。
- 投影與多視圖:將點雲投影到 BEV(鳥瞰圖)、前視深度圖或多視角視圖,再用 2D CNN 提取特徵,相對易於與成熟的 2D 檢測網絡結合。
在3D 目標檢測中,目標不再是單純地給點打標籤,而是要預測 3D 邊界框(位置、尺寸、朝向)及其類別,這是自動駕駛環境感知的核心。典型方法如 VoxelNet、SECOND、PointPillars 和 CenterPoint 等,它們通常將點雲轉換為體素或柱狀表示,在 BEV 或 3D 空間上進行檢測迴歸。CenterPoint 等方法通過“中心點檢測”範式,直接在 BEV 上檢測目標中心及其尺寸/方向,兼具精度和速度。隨著深度學習與傳感器硬件的演進,3D 檢測已能在車規級芯片上實現實時推理,成為自動駕駛感知棧的基礎模塊之一。
3.1.2 多視角幾何與三維重建:從照片到 Mesh
如果沒有 LiDAR,是否仍能“看懂”3D?答案是可以的——多視角幾何與三維重建依賴的是“多張照片 + 攝像機運動”。通過在不同視角拍攝同一場景,我們可以利用幾何約束恢復相機位姿和空間結構,這就是經典的 SfM/MVS 管線。
SfM(Structure‑from‑Motion) 主要解決兩個問題:
- 從多張成對或多視角圖像中,估計每一張圖像的相機外參(位置和朝向);
- 在統一座標系下恢復一組稀疏 3D 特徵點。
典型工具如 COLMAP、OpenMVG,通過特徵提取與匹配(SIFT/ORB 等)、增量或全局 BA(Bundle Adjustment),可以從無標定圖像集合中自動恢復稀疏點雲和相機位姿。 在此基礎上,MVS(Multi‑View Stereo) 會利用多視角的光度一致性,生成稠密點雲:對每個像素/視線進行深度估計,逐步填充場景的幾何細節。
獲得稠密點雲後,下一步是 網格重建(Mesh Reconstruction) :
- 通過 Poisson Surface Reconstruction、Marching Cubes 或基於學習的方法,將散亂的點雲“包裹”成連續曲面,形成帶拓撲結構的 Mesh。
- 後續通常還會進行孔洞填補、平滑、邊界優化,並進行紋理貼圖(Texture Mapping),得到可直接用於渲染和編輯的 3D 模型。
在產品形態上,這一整套管線已通過桌面軟件、雲服務和 SDK 的形式下沉。例如:手機上的 3D 掃描應用,會在後臺調用類似 SfM/MVS 的流程,給用戶“繞一圈拍照”或“掃一圈視頻”之後自動輸出一個可導入到遊戲引擎的網格模型;數字孿生平臺則在城市/園區尺度上,用航攝影像 + 街景數據跑大規模重建,生成可交互的 3D 場景。
3.1.3 神經輻射場與體渲染:NeRF、Gaussian 與新一代 3D 重建
傳統的 SfM/MVS/網格重建,可以得到結構良好的顯式幾何,但在渲染質量、視角連續性和細節表現上仍有侷限;而神經輻射場(NeRF)及其後續工作則以隱式場 + 體渲染的方式重新定義了 3D 重建和新視角合成。
在 NeRF 中,整個 3D 場景被建模為一個連續函數:
其中 表示三維空間中的點位置, 表示觀察方向, 表示體密度, 表示顏色, 為網絡參數。
給定三維空間中的一個點位置 x 和觀察方向 d,網絡會輸出該點對應的體密度 σ 與顏色 c。沿著相機視線方向對這個映射函數做體渲染積分運算,我們就能得到該相機位姿下的像素顏色;反過來,只要給定一組多視角照片及其相機參數,我們就能通過最小化渲染結果與真實圖像的誤差,求解出模型的參數 θ。待模型訓練完成後,只需改變相機位姿,就能合成那些 “從未被真實拍攝過” 的新視角圖像(Novel View Synthesis)。
傳統 NeRF 訓練和渲染速度都偏慢,後續如 Instant‑NGP 通過多分辨率哈希網格編碼等手段,大幅加快了收斂與推理速度;Gaussian Splatting 則用 3D 高斯粒子替代表達場景,通過高效的光柵化策略,實現了高質量、實時的新視角渲染。與此同時,大量工作還圍繞 NeRF/高斯做了可編輯、多模態、可組合等擴展,使其逐漸從研究原型走向工程體系。
在產品化層面,NeRF/高斯類技術已經嵌入到多種 3D AI 產品中:
- 手機/PC 端的“多視角視頻 → 3D 場景”工具,底層往往基於神經場或高斯粒子完成重建和渲染;
- 遊戲/影視資產管線中,利用神經場進行快速場景捕捉和光照還原,再導出為 Mesh + 紋理供傳統 DCC 工具使用;
- 各大雲廠商和內容平臺推出的 3D AI 服務,如騰訊系的「混元 3D」、Tripo 等,通常支持“多視圖照片/短視頻 → 可編輯 3D 模型/場景”,在內部則綜合運用神經輻射場、SDF/Gaussian 表示與後續顯式重建,把高質量 3D 結果打包為對開發者友好的 API 或交互式產品。
3.2 3D 場景理解與定位(3D Scene Understanding & SLAM)
如果說 3D 感知與重建回答的是“這個世界長什麼樣”,那麼 3D 場景理解與定位則進一步回答:“ 我在這個世界的哪裡?這個世界中哪些地方可以走,哪些是障礙? ” 對於掃地機器人、AGV 機器人、無人機、AR 導航和室內定位系統來說,能夠在 3D 環境中自定位、自建圖、自主規劃路徑,是生存的前提。
這部分工作主要圍繞3D 語義理解與SLAM(Simultaneous Localization and Mapping)展開:前者在重建的 3D 場景中進行語義分割和可通行區域識別,後者則利用視覺/IMU/LiDAR 等傳感器進行相機/機器人位姿估計與地圖構建。在工程上,這一層通常以 SDK 或算法模塊的形式嵌入到機器人底盤、無人機飛控或移動端 AR 引擎中。
- 場景
- 家用與服務機器人:掃地機器人、送餐/巡檢機器人在室內環境中構建地圖、識別房間類型和障礙物,實現自動規劃清掃或巡邏路徑。
- 倉儲與物流:AGV/AMR 機器人在倉庫中進行自主導航,識別貨架、通道與禁入區域,完成搬運和盤點任務。
- 無人機與戶外機器人:在室外環境中構建 3D 地圖,避開建築、樹木、電線等障礙,執行巡檢、測繪與安防任務。
- AR 導航與室內定位:手機/AR 眼鏡通過 SLAM 獲取相機位姿,並在語義地圖上疊加導航箭頭、房間信息和 POI,實現沉浸式導覽與導航。
- 原理
- 3D 語義分割與場景理解:在點雲或體素表示上進行語義分割,區分牆壁、地面、桌椅、貨架、門窗等結構,同時識別可通行區域和障礙物,為導航和行為決策提供語義層信息。
- 位姿估計與 SLAM:通過 Visual SLAM(單目/雙目 / RGB‑D)或 LiDAR‑SLAM,從連續傳感數據中估計相機/機器人的 6D 位姿,處理迴環檢測與地圖優化,必要時融合 IMU、輪速、GNSS 等多源信息提高魯棒性。
- 地圖構建與導航:在局部/全局地圖上疊加幾何和語義信息,形成 2D/3D/拓撲/語義地圖,並在此基礎上進行路徑規劃、避障和任務分配。
- 模型
- SLAM 系統:經典的特徵點法 ORB‑SLAM 系列、直接法 DSO,以及融合慣導的 VINS‑Mono / VINS‑Fusion,通過前端特徵跟蹤 + 後端優化實現精確位姿估計與稠密/半稠密地圖。LiDAR/視覺‑LiDAR 融合中常見 LIO‑SAM 等框架。
- 3D 語義分割網絡:3D U‑Net、MinkowskiNet 等 3D CNN,以及基於點雲的 PointNet++ / KPConv / SparseConv 系列,用於點雲/體素的語義分割與實例分割。
- 多傳感器融合定位:基於圖優化或濾波(EKF/UKF)的方法,將視覺、IMU、LiDAR、里程計等多源信息在統一狀態空間中融合,提升在惡劣光照、紋理缺失或動態環境中的定位穩定性。
整體上,3D 場景理解與定位構成了機器人“能動起來”的基礎:既要在複雜三維世界中構建可靠的自我定位框架,又要讓地圖變得“有意義”,從而支持高層任務規劃與人機交互。
3.2.1 3D 語義分割與可通行區域理解
在純幾何地圖中,所有結構只是無差別的點/體素;而在真實應用中,我們關心的是:哪裡是地面、哪裡是牆、哪裡有桌子或貨架、哪裡可以通行。3D 語義分割就是要為每一個點或體素賦予語義標籤,將“純幾何”轉化為“幾何 + 語義”。
在室內/室外場景中,典型目標包括:
- 固定結構:牆、地面、天花板、樓梯、柱子、道路、路沿等;
- 傢俱與設施:桌椅、櫃子、貨架、門窗、扶手等;
- 可通行/不可通行區域:機器人可行走區域、需繞行的障礙物、禁入區域等。
建模上,3D 語義分割常採用:
- 體素/稀疏卷積方案:把點雲體素化後,用 3D U‑Net、MinkowskiNet 等稀疏 CNN 學習體素級特徵,兼顧局部細節和全局結構。
- 點雲直接方案:PointNet++、KPConv 等點雲網絡,對局部鄰域做特徵聚合,實現點級別的語義預測。
在掃地機器人、AGV 機器人等應用中,語義分割的結果會被進一步抽象成 語義地圖 :例如把房間劃分為臥室/客廳/廚房,把倉庫內空間劃分為貨架區域/通道/禁行區。機器人不僅知道“哪裡可以走”,還可以根據房間類型定製不同策略(如臥室避開地毯區域、倉庫中優先覆蓋某些貨區)。
3.2.2 位姿估計、SLAM 與多傳感器融合定位
SLAM(Simultaneous Localization and Mapping) 的目標是:在未知環境中,一邊移動一邊估計自身軌跡,同時構建環境地圖。對於沒有高精度外部定位(如 RTK‑GNSS)支持的室內環境來說,SLAM 是絕大多數機器人和 AR 引擎的首選方案。
在視覺 SLAM 中,以 ORB‑SLAM、DSO、VINS‑Mono/VINS‑Fusion 為代表的方法,通常分為幾個關鍵模塊:
- 前端:從連續圖像中提取和跟蹤關鍵點/圖像塊,估計相鄰幀之間的相對位姿。
- 後端:在滑動窗口或全局圖中進行 BA 或圖優化,處理漂移、迴環檢測與重定位。
- 地圖:根據位姿和深度信息構建稠密或半稠密地圖,為後續導航或渲染提供基礎。
純視覺在紋理缺失、光照劇烈變化時容易失效,因此實踐中一般會採用 多傳感器融合定位 :
- 視覺 + IMU:VINS‑Mono/VINS‑Fusion 等框架將 IMU 的高頻短時精度與視覺的尺度和幾何約束結合,大幅提高短時和急轉彎場景的穩定性。
- LiDAR + IMU + 視覺:如 LIO‑SAM 等里程計框架在 LiDAR‑SLAM 中引入慣導與可選視覺信息,利用三者互補的特性實現魯棒定位,在自動駕駛和高精度測繪中廣泛使用。
在產品層面,這些方法通常被封裝為機器人底盤控制器、無人機飛控、AR 引擎(如 ARKit/ARCore 中的 Visual‑Inertial SLAM)或室內定位 SDK 的一部分,對上層應用屏蔽了複雜的狀態估計和圖優化邏輯,讓開發者可以直接拿到“實時位姿 + 地圖”。
3.2.3 語義地圖、導航與避障
有了穩定的位姿估計和幾何/語義地圖,下一步是讓機器人“聰明地動起來”。這部分主要涉及 語義地圖構建、路徑規劃和避障 。
- 語義地圖構建 :在幾何地圖上疊加語義信息(房間類型、POI、區域標籤),形成適合高層決策的地圖表徵。例如:
- 家庭場景中,將地圖劃分為臥室、客廳、廚房、衛生間等區域;
- 倉儲場景中,標註貨架位置、裝卸區、危險區域等;
- 大型商場/展館中,標註店鋪、服務檯、洗手間等 POI,用於 AR 導航和導覽。
- 路徑規劃與避障 :在地圖上構建柵格圖或拓撲圖,利用 A、D Lite、RRT 等規劃算法為機器人找到從起點到目標點的可行路徑;同時結合實時感知(前方障礙物、動態行人/車輛),進行局部重規劃和避障,保證運行安全與效率。
- 導航行為與任務調度 :在 AGV 機器人和無人機中,還會在導航之上疊加任務調度與多機協同模塊:分配任務、避免擁堵、優化整體路徑與能耗。
AR 導航與室內定位系統本質上也依賴類似的語義地圖和路徑規劃,只不過“執行者”從機器人變成了人:系統通過 SLAM 獲取用戶設備的位姿,在語義地圖上規劃行走路徑,再以增強現實的形式把路徑可視化疊加到真實世界視圖中。
3.3 3D 生成與編輯(3D Generation & Editing)
如果說 3D 感知和 SLAM 是從真實世界“採集並理解”幾何,那麼 3D 生成與編輯則是站在內容生產的角度: 如何用 AI 自動生產和改造 3D 資產 。這直接面向遊戲、影視、數字人、虛擬空間、電商展示、3D 打印等巨大的內容需求。
最近兩三年,隨著 NeRF/Gaussian、SDF 表示、多模態擴散模型等技術的突破,3D 生成進入快速發展期:從文本、圖像、視頻一鍵生成 3D 模型或場景已經成為現實,各大雲廠商和創業團隊推出瞭如「混元 3D」、Tripo、DreamFusion / Magic3D 系列方法落地為在線工具,使 3D 生產逐漸向“人人可用”的方向演進。3D 生成與編輯大致可以拆成四類能力:文生 3D、圖/視頻生 3D、模型優化與編輯,以及綁定與動畫。
- 場景
- 遊戲 / 影視資產製作:為角色、道具、建築、場景快速生成可用的 3D 模型,大幅降低美術工作量。
- 電商與產品展示:根據產品文案或照片自動生成 3D 展示模型,用於 3D 看樣、AR 試擺、交互式廣告。
- 數字人與虛擬內容:快速生成虛擬人、虛擬試衣模特、虛擬主播場景等 3D 資產,支持直播、短視頻和互動應用。
- 3D 打印與個性化建模:從草圖/照片/文本生成可打印模型,實現個性化禮品、原型設計與教育場景應用。
- 原理
- 文生 3D(Text‑to‑3D):將文本描述編碼為語義向量,再通過多階段優化或擴散過程生成 3D 表示(NeRF/SDF/Gaussian/Mesh),通常藉助強大的 2D 文生圖模型做“評分器”或先驗。
- 圖 / 視頻生 3D:利用單張或多張圖像、多視角視頻作為監督,結合 NeRF、SDF 或隱式/顯式混合表示,重建出帶幾何和紋理的 3D 模型。
- 3D 模型優化與編輯:對已有模型進行重拓撲、簡模、細節增強、LOD 生成、UV 展開和貼圖生成,以及基於語言/圖像的形變與風格化。
- 綁定與動畫:為 3D 角色自動推斷骨骼結構並完成 Rigging,支持骨骼動畫和物理模擬(布料、軟體、剛體),形成可驅動的動態資產。
- 模型
- 3D 生成基礎表示:NeRF / Instant‑NGP、SDF(隱式表面)、Gaussian Splatting 以及 Mesh‑based 生成網絡,構成 3D 數據的表達空間。
- Text‑to‑3D 方法:DreamFusion、Magic3D、Fantasia3D 等典型路線,通過“2D 文生圖模型 + 3D 優化”或“3D 擴散模型”完成從文本到 3D 的端到端生成,為後來的混元 3D、Tripo 等產品奠定技術基礎。
- 圖/視頻生 3D 模型:基於 NeRF/SDF/Gaussian 的重建與優化框架,從多視圖一致性和單視圖先驗中恢復穩定的 3D 幾何與紋理。
- 綁定與動畫算法:自動骨骼提取、骨骼權重預測、基於深度學習的 Retargeting 與運動生成,為虛擬人/角色動畫提供一鍵化工具。
在這一層,傳統 3D DCC(Maya/Blender/3ds Max 等)與 AI 工具鏈逐步融合:許多 3D AI 服務以插件或雲端接口的形式嵌入現有生產流程,讓建模師/美術可以在人機協作中迅速迭代資產。
3.3.1 文生 3D 與場景草模
文生 3D(Text‑to‑3D) 的目標是:給出一句自然語言描述,例如“一個卡通風格的黃色小鴨玩具,帶有藍色圍巾,適合兒童玩具展示”,系統自動生成一個可編輯的 3D 模型(Mesh/NeRF/SDF/Gaussian 等)。這是將大語言模型/多模態模型與 3D 表示結合的典型應用。
典型技術路徑包括:
- 基於 2D 文生圖模型的優化 (如 DreamFusion、Magic3D):
- 使用強大的 Text‑to‑Image 模型(如擴散模型)作為“評估器”,給定 3D 表示在某一視角下渲染出的圖像,評估它與文本描述的匹配程度。
- 通過梯度優化或擴散過程,迭代調整 3D 表示(NeRF/SDF/Mesh),使得從多個視角渲染出的圖像都符合文本語義。
- 3D 擴散模型 / 直接生成 :
- 將 3D 數據(點雲、體素、隱式場參數、Gaussian 粒子等)作為擴散模型的生成目標,在大規模 3D 數據集上預訓練;
- 通過文本條件控制,實現端到端的 Text‑to‑3D 採樣。
在場景級別,場景草模能力允許用戶用自然語言或粗略草圖描述空間佈局,例如“一個帶落地窗的客廳,左邊一張 L 型沙發,中間一張茶几,右側有書架和電視櫃”,系統自動搭建出一個幾何和語義合理的 3D 佈局草圖。後續可以在 DCC 工具中細化模型與材質,或直接通過混元 3D、Tripo 等工具中的“場景生成”能力快速產出可用的場景原型。
當前,多家平臺已經推出面向設計師和開發者的 Text‑to‑3D 產品:
- 「混元 3D」等將文生 3D、多視圖生成與重建能力整合進統一界面,支持從文本快速生成角色、道具和場景再導出到遊戲引擎;
- Tripo 類產品則強調“多模態輸入 + 一鍵 3D 輸出”,支持簡單文本和參考圖像混合,引導生成滿足風格與結構需求的 3D 資產。
3.3.2 圖 / 視頻生 3D 與模型優化編輯
與純文本相比,從圖像或視頻生成 3D 模型對幾何約束更強,在視覺上一致性也更好。因此,大量 3D AI 產品支持 圖生 3D / 視頻生 3D :
- 單張照片 → 粗 3D:利用單視圖先驗(如人臉、人體、常見物體類別的形狀先驗),推斷大致的 3D 幾何,生成可用於預覽或簡單交互的 3D 模型。
- 多張照片 / 短視頻 → 高質量 3D:綜合使用 NeRF/SDF/Gaussian 重建、多視角幾何和後處理,將數十張照片或幾秒鐘視頻轉換為高保真的 3D 模型,適合遊戲/影視資產或高質量電商展示。
生成出 3D 幾何只是第一步,後續還需要大量模型優化與編輯工作:
- 重拓撲與簡模:將隱式場或高多邊形 Mesh 轉換為結構規整、面數可控的拓撲,以便於綁定、動畫和實時渲染。
- LOD 生成:自動生成多級細節模型(Level of Detail),在遠處用低模、近處用高模,兼顧畫質與性能。
- UV 展開與貼圖生成:自動為模型展開 UV、生成或優化法線貼圖、位移貼圖、粗糙度/金屬度貼圖等 PBR 材質;有些模型還支持從文本或參考圖自動生成風格化紋理。
- 幾何與風格編輯:基於語言或示例圖進行局部修改,如“讓這個椅子腿變短一點”“把這棟樓改成賽博朋克風格”,底層通常通過形狀潛空間操作或神經場編輯實現。
混元 3D、Tripo 等產品往往將上述流程打通:用戶從照片/視頻或簡單文本出發,系統內部完成重建、重拓撲、貼圖與導出,讓非專業用戶也能在幾分鐘內獲得“即插即用”的 3D 模型,大幅縮短從概念到資產的時間。
3.3.3 綁定、動畫與動態 3D 資產
靜態模型只是內容的一半,“能動起來”的 3D 資產在遊戲、影視、虛擬人和交互應用中更為關鍵。這涉及骨骼綁定(Rigging)、權重繪製、動畫與物理模擬等環節,傳統上都是高門檻的專業工作,如今也逐漸被 AI 工具輔助甚至半自動完成。
- 自動 Rigging :給定一個角色 Mesh,系統自動推斷骨骼層級結構(脊柱、四肢、手指等)和骨骼在模型中的位置,並預測每個頂點相對於各個骨骼的權重。近年來的深度學習方法可以在大規模帶骨骼標註的角色數據集上學習這一映射,實現一鍵骨骼綁定。
- 動畫與動作生成 :在已有骨骼上疊加動作數據(Mocap 或 AI 生成),完成走路、跑步、表情、手勢等動畫;基於深度學習的動作生成與 Retargeting 可以將視頻中的人體動作或其他角色的動作遷移到新角色上。
- 物理模擬 :對布料、軟體、剛體等進行物理模擬,使頭髮、衣服、旗幟、柔軟物體的運動更自然。有些系統利用神經網絡加速或近似物理,使實時引擎中的物理效果更逼真。
在產品與生態上,這些能力常常內嵌於:
- 遊戲 / 影視資產工具鏈:為建模師提供一鍵 Rigging、自動權重分配和基礎動作庫,大幅減少重複勞動;
- 虛擬人 / 數字資產製作平臺:從人物照片或掃描開始,經由 3D 重建 + 自動 Rigging + 動作驅動,輸出可在直播、短視頻、互動應用中驅動的虛擬人;
- 3D AI 平臺(如混元 3D、Tripo 及同類產品):在 3D 生成之後,進一步增加綁定與簡單動畫功能,讓用戶“生成的角色可以立刻動起來”,而不需要複雜的 DCC 工具操作。
隨著 3D 生成與編輯技術的成熟,整個 3D 內容生產流程正在從“以專業 DCC 工具為中心”演化為“AI 驅動的人機協作”:AI 負責生成與大量基礎工作,人類更多在風格定義、品控和關鍵設計節點上做決策。混元 3D、Tripo 等新一代 3D AI 產品正是這一趨勢的集中體現,為上層的遊戲、影視、AR/VR、數字孿生和虛擬人應用提供了更快、更易用的 3D 基礎設施。
4. 音頻(Audio / Speech)
在整體技術棧中,“音頻”對應的是對聲學信號的感知與生成:既包括對原始波形和頻譜的處理,也包括把語音轉為文字、理解“誰在說”“說了什麼”,以及進一步對聲音、音樂進行創作和合成。與視覺類似,音頻也可以被拆成多層:底層的波形與頻譜處理負責“聽清楚”;中層的語音識別與說話人技術負責“聽懂是誰在說什麼”;在此之上,是更抽象的音頻/音樂理解與 語音、音樂生成 。這一整塊能力共同支撐了會議實時字幕、語音助手、播客後期修音、智能音箱、聲學安防監控、音樂推薦與生成等產品。
4.1 波形層面音頻處理:從“聽得清”開始
在音頻技術的最底層,我們首先關心的並不是“說了什麼”“是誰在說”“音樂是什麼風格”,而是 這個聲音本身乾不乾淨、聽不聽得清 。這一層主要在波形和頻譜層面工作,通過重採樣、增強、降噪、分離等操作,把嘈雜、失真、混在一起的原始聲音加工成更適合後續識別、分析和生成的“乾淨信號”。可以把它類比到視覺裡的“圖像增強 + 去噪 +分離前景/背景”,更多是在做聲學層面的清理,而不直接處理語義。
從產品角度看,這一層幾乎“隱身”在所有音頻產品背後:會議軟件的實時降噪、播客/短視頻後期修音、錄音筆和手機裡的“語音增強模式”、直播平臺裡的“美聲開關”,以及給 ASR/聲紋模型做的前端預處理,都是波形層面音頻處理的直接體現。下面依舊從 場景 、原理和模型三個角度來梳理,並在後續小節具體展開預處理 & 特徵提取、增強與降噪、聲源分離三個關鍵方向。
- 場景
- 在線溝通與會議:Zoom、騰訊會議等在嘈雜辦公室、開放工位、家中環境下,實時壓制鍵盤聲、敲擊聲、街噪、回聲,讓語音更清晰。
- 內容創作與後期修音:播客、短視頻、直播後期中,自動消除底噪、電流聲、房間混響,修補錄音爆音和頻段缺失,提高整體聽感。
- 錄音與轉寫前端:錄音筆、智能字幕、會議轉寫服務在進入 ASR 之前,通過 VAD、降噪、響度歸一等處理,提升後端識別魯棒性。
- 終端與 IoT:智能音箱、車機、攝像頭等設備上的“遠場拾音”與“降噪模式”,在複雜聲場中儘量捕獲到主說話人或關鍵聲源。
- 原理 波形層面處理通常不直接理解語義,而是圍繞頻譜結構和統計特性做信號優化:
- 在時間域和頻率域之間來回變換(如 STFT → 頻譜/梅爾頻譜 → iSTFT),對噪聲頻帶、混響特徵或背景聲進行抑制或建模。
- 通過 VAD 和能量/譜特徵,區分“有語音的片段”和“靜音/噪聲片段”,減少無效片段對後端的影響。
- 使用深度學習或經典濾波方法估計“乾淨語音譜”和“噪聲譜”的掩碼或增益函數,對頻譜進行加權,達到增強與降噪的目的。
- 在多聲源混合的場景中,通過端到端分離網絡或稀疏表示,將不同說話人、人聲與伴奏、前景與背景環境聲解混到獨立的軌道。
- 模型 波形/頻譜層面的模型大致可分為兩類:頻譜域模型和 時域端到端模型 :
- 頻譜/梅爾頻譜上的 U‑Net 系列:Spectrogram‑based U‑Net、DCCRN 等,在時–頻平面上做“圖像式”的卷積與編碼–解碼,是語音增強、歌聲分離等任務的常用方案。
- 波形端到端模型:Wave‑U‑Net、Conv‑TasNet、Demucs 等,直接在時域波形上建模,避免顯式 STFT/ISTFT,往往在主觀聽感和時域保真度上效果更好。
- 經典信號處理方法:譜減、Wiener 濾波等傳統頻域方法,在輕量級設備或對延遲極敏感的場景中仍然廣泛存在,常與深度增強網絡結合形成“混合方案”。
4.1.1 預處理與特徵提取:為後端“清場搭臺”
任何後續的 ASR、聲紋識別、事件檢測、TTS 等模型,都需要一個儘量統一、乾淨、結構化的音頻輸入,這就是預處理與特徵提取層的職責。它負責做最基礎卻又極其關鍵的“清場”和“格式統一”,為上游音頻模型搭好舞臺。
在預處理階段,首先會對採集到的音頻做 採樣率轉換和聲道轉換 :比如把 48kHz 立體聲轉換為 16kHz 單聲道,以滿足下游模型的輸入規格,並降低計算成本。隨後,會對響度進行歸一化、去直流分量、簡單濾波等,使不同設備、不同場景下錄得的音頻在能量尺度上更加一致。
語音端點檢測(VAD) 則是預處理中的另一個關鍵環節。它嘗試在音頻流中自動劃分“有語音的片段”和“靜音/純噪聲片段”,常基於幀能量、譜熵、零交叉率或小型神經網絡判別。VAD 的好處是:可以顯著減少送入 ASR/聲紋模型的無效數據,降低計算量,同時避免靜音段干擾識別(例如誤識為長串空格或奇怪字符)。在實時通信中,VAD 還可以驅動“語音活動指示燈”和自動靜音邏輯。
在特徵提取層面,最常見的是將時域波形轉為頻譜或 梅爾頻譜 。通過短時傅里葉變換(STFT),音頻被分解為隨時間變化的頻率分佈;再通過梅爾濾波器組,可以得到更符合人耳感知的梅爾頻譜或梅爾倒譜特徵(如 log Mel‑spectrogram、MFCC)。這些時–頻特徵為後續的識別、分離與生成提供了一種“二維表示”,類似視覺裡的灰度圖或多通道特徵圖,便於卷積、注意力等結構處理。隨著端到端建模的發展,也有越來越多模型直接在波形上學習特徵(如 Wav2Vec 2.0 ),但在工程實踐中,STFT + 梅爾特徵的組合仍然是最普遍、最穩妥的前端。
4.1.2 增強與降噪:把“糊音”修成“幹聲”
在真實環境中,聲音幾乎總是在噪聲和混響中傳播:空調聲、鍵盤敲擊、路噪、人群嘈雜、房間回聲,都在不同程度上降低了語音和音樂的可懂度與主觀質量。語音增強與降噪的目標,就是在儘量保持語音自然度和完整度的前提下,抑制這些背景干擾,把“糊掉”的聲音儘可能修成“乾淨”的聲音。
在傳統方法中,這一任務主要通過譜減、Wiener 濾波等頻域技術實現:先估計噪聲譜,然後在頻譜上按一定規則“減去”噪聲或進行頻帶增益調整。雖然實現簡單、實時性好,但在強噪聲、非平穩噪聲和複雜混響場景下容易產生明顯的“音樂噪聲”和偽影。
深度學習方法則通過在頻譜或波形上學習一個 映射 :給定帶噪語音,預測一個時間–頻率掩碼或直接預測乾淨波形。常見方案包括在梅爾/線性頻譜上使用 Spectrogram‑based U‑Net、DCCRN 等編碼–解碼結構,對每一幀的頻譜進行細緻修復;也有直接在時域波形上用 Conv‑TasNet、Demucs、Wave‑U‑Net 等模型進行端到端的波形增強。這些方法在語音電話、在線會議、錄音修復等場景中,能顯著提高語音清晰度和主觀聽感。
在內容創作和後期製作中,“錄音修復”往往還涉及減少爆音(plosives)、削減齒音(sibilance)、補償頻段缺失以及均衡(EQ)和動態處理(壓縮器/限幅器)等更“音頻工程師味”的操作。越來越多的工具將這些傳統處理與深度模型結合,提供一鍵“修音”和“音頻美化”能力,服務播客、視頻創作者和直播平臺。
4.1.3 聲源分離:把“混音”拆開
如果說增強與降噪是“讓主聲更突出、背景更安靜”,那麼聲源分離則進一步嘗試將混合在一起的多個聲源完全拆分成獨立軌道。例如:會議錄音中多位說話人同時講話;音樂中人聲與伴奏混在一起;環境錄音中主事件(如警報、喊叫)掩埋在背景噪聲裡。聲源分離的目標,是從單條或多條混合信號中,恢復出每個獨立聲源的波形或頻譜。
在語音領域,多說話人分離是一個核心應用:模型需要在沒有單獨麥克風分軌的情況下,根據聲紋、時頻結構和說話人特徵,將多個重疊語音分到不同通道。這類能力不僅能提升多說話人 ASR 的表現,還可為說話人分離與標註(Diarization)提供更乾淨的輸入。在音樂領域,人聲/伴奏分離(歌聲分離)則可以從一首混音好的歌曲中分離出清晰的人聲軌和純伴奏軌,用於翻唱、Remix、卡拉 OK、音樂分析等。類似地,環境音/前景聲分離可用於安防與 IoT 場景,從複雜背景中提取關鍵事件聲(如玻璃破碎、衝突聲)。
在模型層面,聲源分離通常採用比普通增強更強的建模能力和更復雜的架構。Conv‑TasNet、Demucs、Wave‑U‑Net 等端到端網絡可以直接在時域進行多聲源分解;在頻譜域上,則常見多分支 U‑Net、注意力、掩碼估計等結構,分別為不同聲源預測專門的掩碼或頻譜。隨著訓練數據和計算資源的增長,現代聲源分離模型已經能在相當複雜的混響和噪聲環境下,輸出可用於實際創作與分析的高質量分軌,為直播美聲、多說話人會議、音樂製作和音頻檢索提供了堅實基礎。
4.2 語音識別與說話人技術(ASR & Speaker)
在波形層面完成了預處理、增強和分離之後,我們終於可以開始問更高層的問題:“音頻裡說了什麼?”“是誰在說?”“什麼時候誰在說?” 這一層聚焦的是各種圍繞語音本身的“理解與標註”任務:自動語音識別(ASR)、說話人識別與驗證、說話人分離與標註(Diarization),以及面向交互的熱詞與關鍵詞檢測(KWS)。
從產品形態看,這一層是絕大多數“語音產品”的核心:語音輸入法、會議轉寫、客戶服務錄音分析、智能客服質檢、智能音箱和車機語音交互、電話機器人、金融場景聲紋驗證等,幾乎都直接依賴這些技術。它們把前一層“乾淨的聲音”轉化為文字序列、說話人標籤或關鍵詞事件,是音頻到語義世界的最重要橋樑之一。
- 場景
- 自動語音識別(ASR):實時字幕、語音輸入法、會議與課堂記錄、客服通話轉寫,為用戶提供“聽覺到文本”的即時通道。
- 說話人識別與驗證:手機/銀行/呼叫中心中的“聲紋解鎖”“聲紋驗證”,以及在海量錄音中檢索某一特定說話人。
- 說話人分離與標註(Diarization):在會議、訪談、圓桌討論中,自動回答“誰在什麼時候說話”,實現“分說話人轉寫”。
- 熱詞與關鍵詞檢測(KWS):智能音箱/車機喚醒詞檢測(“Hey Siri”“OK Google”),以及在客服錄音、質檢中捕捉關鍵短語(如“投訴”“退款”“要升級”等)。
- 原理 這一層的大部分任務都可以被統一視為對音頻序列進行 時間對齊與序列標註 :
- ASR:給定一段語音,學習從聲學特徵到文本序列的映射,常使用 CTC、RNN‑Transducer(RNN‑T)或基於注意力的端到端結構;現代模型多采用大規模預訓練(如 Wav2Vec 2.0、Whisper 等)再微調。
- 說話人識別:從音頻中提取一個固定維度的 說話人嵌入 (speaker embedding,如 x‑vector、ECAPA‑TDNN),在這個嵌入空間中,同一人的語音彼此接近,不同人的語音彼此遠離,再結合度量或分類模型完成識別與驗證。
- 說話人分離與標註(Diarization):綜合利用聲紋嵌入、VAD、分段聚類或端到端網絡(EEND),為每一段時間片分配說話人標籤,從而拼出“時間軸上的多說話人時間線”。
- KWS:在連續音頻流上進行低延遲的小模型檢測,對預定義的喚醒詞或關鍵詞進行局部模式匹配和置信度評估,兼顧低算力與高召回。
- 模型 ASR 與說話人技術的模型譜系既包括端到端架構,也包括專門的嵌入模型與聚類方法:
- ASR:Wav2Vec 2.0、Conformer、Whisper、RNN‑T、Citrinet 等,大多采用卷積 + 自注意力或純自注意力結構,支持多語種、大詞表和長上下文。
- 說話人嵌入:ECAPA‑TDNN、x‑vector、i‑vector 等,通過對大量說話人數據進行分類訓練或度量學習,得到穩健的說話人特徵空間。
- Diarization:從 VAD + 分段 + 聚類的傳統流程,到 End‑to‑End Diarization(EEND)這類直接輸出“時刻 × 說話人”矩陣的端到端方法。
- 熱詞/關鍵詞檢測:輕量級 CNN/RNN/Transformer 前端組合 CTC 或門控機制,嵌入在設備本地,以超低算力、低延遲實現常開監聽。
4.2.1 自動語音識別(ASR):把“聲音”變成“文字”
自動語音識別(ASR)是“音頻→文本”的主通路:無論是語音輸入法,還是會議轉寫、智能字幕、客服錄音分析,第一步都是要把用戶說的話準確地轉成文字。現代 ASR 系統多采用端到端架構 :從聲學特徵(如梅爾頻譜或直接波形)出發,經過一系列深度網絡(如 Conformer、Citrinet、基於 Transformer 的 Encoder),直接輸出文字序列或對應的 token 序列。
在建模上,ASR 的難點主要包括長時依賴、多語種與方言、口音變化、重疊語音、背景噪聲以及領域內專有名詞。為此,當前主流方向是利用大規模無標註音頻做自監督預訓練(如 Wav2Vec 2.0、HuBERT),或在多語種、多任務數據上做大規模監督訓練(如 Whisper),再通過相對少量的領域數據進行微調,從而在不同語言、口音和場景下達到較好的魯棒性。
在產品層面,ASR 通常被打包為“語音輸入法 SDK”“雲端語音識別 API”“會議轉寫服務”等能力輸出:前端可以是實時流式識別(RNN‑T、流式 Transformer 等),後端可通過熱詞注入、自定義詞表、上下文約束來強化對特定人名、地名、品牌名和業務術語的識別。這些識別結果往往是後續 NLP、對話系統和數據分析的基礎。
4.2.2 說話人識別與分離標註:回答“是誰”與“何時在說話”
與“說了什麼”相比,“是誰在說”在很多應用中同樣重要:金融、政務、客服、安防等場景需要通過聲紋識別來驗證身份或排查風險;而會議與訪談場景則需要知道“每一句是誰說的”,以支持分說話人轉寫、發言統計和行為分析。
在說話人識別/驗證(Speaker Recognition) 任務中,系統的目標是:給定一段語音,判斷說話人是誰,或者判斷是否與某個註冊說話人屬於同一人。現代系統通常通過 ECAPA‑TDNN、x‑vector 等模型,從語音段中提取一個固定維度的說話人嵌入向量。在訓練階段,以說話人分類與度量學習的組合,保證同一人的嵌入更為聚集、不同人之間的嵌入距離更大;在推理階段,再採取最近鄰或後端判別器(如 PLDA、Cosine scoring with margin)進行驗證與識別。這樣,系統就能在電話、麥克風、噪聲環境下,以一定置信度回答“是不是同一個人”。
說話人分離與標註(Diarization) 則進一步回答“誰在什麼時候說話”。傳統方案通常包含三個步驟:先用 VAD 找出有語音的片段,再將長音頻切成短 segments,為每個 segment 提取說話人嵌入,最後在嵌入空間中做聚類和時間拼接,得到一條多說話人時間軸。更先進的 End‑to‑End Diarization (EEND) 類方法則嘗試直接從音頻特徵輸出“時間 × 說話人”布爾矩陣,端到端學習重疊語音、說話人切換等複雜模式。Diarization 在會議、訪談節目、法庭記錄、電話客服等場景中極具價值,常與 ASR 結合形成“帶說話人標籤的文字記錄”。
4.2.3 熱詞與關鍵詞檢測:面向交互和監控的“耳朵”
在持續的音頻流中,不是每一秒都值得被完整識別和存儲。熱詞與關鍵詞檢測(KWS)的角色,就是一個始終在線的“守門員”:
- 在智能音箱、車機、手機助手中,KWS 模塊負責檢測喚醒詞(如“Hey Siri”“OK Google”“小愛同學”),一旦檢測到喚醒詞,就把音頻流交給更昂貴的 ASR 與對話系統處理。
- 在智能客服、質檢和合規場景中,KWS 會對錄音或實時通話中出現的關鍵短語(如“投訴”“退貨”“維權”“欺詐”)進行標記和告警,為後端分析和質檢策略提供觸發點。
在技術實現上,KWS 通常需要在極低算力和低延遲的約束下運行,尤其是本地設備上的喚醒詞檢測:模型往往是一個小型 CNN/RNN/Transformer 前端,接 CTC 或門控判別頭,對特定詞的聲學模式進行檢測,並利用滑動窗口和置信度平滑避免誤喚醒。對於關鍵詞質檢場景,則可以採用更強的 ASR + 關鍵詞匹配/正則 + 統計分析,或者直接訓練端到端關鍵詞 tagging 模型。無論哪種形態,KWS 本質上是在語音流上加了一層“事件級”的語義篩選,是連接音頻世界與交互邏輯的重要接口。
4.3 音頻/音樂理解(Audio Event & Music Understanding)
並非所有音頻都以“語音”為中心。現實中有大量與環境聲、事件聲、音樂相關的場景,它們更關注的是:“發生了什麼聲音事件?”“當前環境是什麼聲景?”“這首歌是什麼風格、用了哪些樂器、節奏和調是什麼?” 這部分能力統稱為音頻/音樂理解,主要圍繞聲音事件檢測、環境/場景分類和音樂屬性理解展開。
從產品視角看,音頻理解技術支撐了安防聲學監控、IoT 聲學傳感器、智能設備的環境自適應、音樂推薦與分類、音樂版權識別、音樂檢索和創作輔助等廣泛應用。與圖像中的“圖像分類 + 細粒度分類”類似,這一層把原本連續、複雜的聲音空間結構化成離散的事件標籤、多維屬性向量和風格描述。
- 場景
- 聲音事件檢測:檢測警報聲、玻璃破碎、嬰兒哭聲、撞擊聲等,用於安防監控、智慧樓宇、車輛安全系統和工業告警。
- 環境/場景分類:識別“室內/室外”“辦公室/車內/街道/地鐵”等聲景,為智能設備的降噪策略、自適應增益、模式切換提供依據。
- 音樂理解與音樂信息檢索(MIR):曲風分類、樂器識別、節奏與調性分析,支撐音樂推薦、歌單生成、音樂檢索、版權識別和創作助手。
- 原理 音頻/音樂理解大多基於時–頻特徵 + 深度神經網絡進行分類或多標籤標註:
- 使用 log Mel‑spectrogram 等特徵,將音頻轉化為“聲學圖像”,再利用 CNN、CRNN 或 Transformer 等結構進行時–頻模式識別。
- 對於聲音事件檢測,往往採用多標籤、多時序輸出,對每種事件在時間軸上進行存在性預測,有時還會結合弱監督標籤和多實例學習。
- 對環境/場景分類,則更注重長時間統計特徵和背景格局,往往需要在較長窗口上建模。
- 音樂理解任務則結合音樂理論知識,對節奏(BPM)、拍點、調性、和絃和結構進行建模,部分任務通過自監督或對比學習預訓練音樂嵌入,再做下游微調。
- 模型 常見的音頻理解模型多在公開數據集(如 AudioSet)上預訓練,再遷移到具體任務:
- VGGish、YAMNet、PANNs 等 CNN/CRNN 模型,在大規模有聲數據上預訓練後,可用於多種音頻事件與聲景任務。
- AST(Audio Spectrogram Transformer)等 Transformer‑based 模型,直接在頻譜圖上使用自注意力,獲得更強的全局時–頻建模能力。
- 針對音樂的 MusicTagging / MIR 模型,會在百萬級歌曲上預訓練標籤模型或嵌入模型,用於風格/情感/樂器標籤、音樂檢索和推薦。
4.3.1 聲音事件與環境聲景:讓設備“聽得懂環境”
在安防、IoT、智慧城市、車載系統中,光靠攝像頭並不足以全面理解環境狀態。聲音事件檢測的目標,就是讓系統“聽得懂”關鍵事件:當發生玻璃破碎、警報拉響、嬰兒哭泣、碰撞、尖叫、打鬥、破壞行為時,系統能夠在音頻信號中識別併發出告警。與語音識別不同,這類事件往往是短促、非語言的,頻率範圍和能量形態各異,且可能和背景噪聲高度重疊。
環境/場景分類則更關注持續性的聲景(acoustic scene):是安靜辦公室、熱鬧街道、車內、高鐵站還是咖啡館?系統可以根據聲景自動調整降噪強度、回聲抵消參數、麥克風陣列波束指向,甚至改變交互策略(例如在車內通過更簡短的反饋交互,在嘈雜街道上提高輸出音量)。在 IoT 場景中,多個聲音傳感器組成的“聲學網絡”可用於對環境狀態進行長期監控和統計分析。
在技術實現上,這兩類任務都大多采用多標籤分類 + 時序建模方案:將音頻轉換為梅爾頻譜,使用 VGGish、PANNs、AST 或類似模型進行特徵抽取,再用時序池化或序列模型輸出每個標籤在時間軸上的激活情況。由於很多數據集只提供“片段級標籤”(weak labels),模型常需通過多實例學習、自注意力池化等方式,在弱監督下學習事件的時間定位。
4.3.2 音樂理解與標籤:從“歌單標籤”到“結構分析”
在音樂領域,音頻理解的目標不僅僅是“這是一首什麼歌”,更是要回答:“這首歌什麼風格?用到了哪些樂器?節奏快慢如何?調性與大致和聲結構是什麼?” 這些信息一方面支撐音樂推薦與歌單編排,另一方面也為創作者和生成模型提供結構化“音樂元數據”。
曲風分類任務會根據歌曲整體聲學特徵與結構,將其歸入流行、搖滾、古典、嘻哈、電子、Lo‑Fi 等不同風格;樂器識別則在時–頻特徵上區分鼓、貝斯、吉他、鋼琴、絃樂等不同樂器的聲學指紋,可用於樂器統計、音樂檢索和混音分析。節奏/調性分析則是對 BPM、拍點位置、拍號、主調(Key)等進行估計,為節奏匹配、自動和聲、DJ 混音、遊戲音軌同步等任務提供基礎。
在模型上,音樂理解多沿用通用音頻模型(如 PANNs、AST),但也有大量專門面向音樂信息檢索(MIR)的模型與預訓練嵌入。典型做法是在大規模音樂數據集上進行 多標籤音樂標籤學習 (genre、mood、instrument、era 等),得到音樂嵌入空間,再在上述具體任務上微調或做零樣本推斷。結合這些模型,音樂平臺可以更智能地完成音樂分類與推薦,版權平臺可以強化音樂指紋與相似性檢索,而創作工具則可以利用這些理解能力,為用戶推薦合適的伴奏、擴展相似風格或自動生成音樂結構。
4.4 語音與音頻生成(TTS / VC / Music Generation)
在完成了對音頻的“清理”“識別”和“理解”之後,下一層自然的問題是:“我們能否直接讓機器‘說話’、‘唱歌’甚至‘作曲’?” 這就是語音與音頻生成的世界:從文本到語音(TTS),從一種聲音到另一種聲音(VC / Voice Cloning),到更大範圍的音樂與音效生成,再到可以演唱歌詞和旋律的歌聲合成。與圖像生成類似,這一層不再只是在已有數據上打標籤或提取結構,而是主動“創造”新的聲音內容。
在產品層面,這一層能力已經滲透到各類應用:OpenAI TTS、ElevenLabs、火山引擎、minimax等語音產品線為應用提供高質量合成語音;Suno、Udio 等音樂生成平臺為創作者甚至普通用戶提供從文案到完整音樂的能力;遊戲、視頻、虛擬主播和數字人依賴這些模型進行配音和歌唱,極大降低了內容製作的門檻。
- 場景
- 文本轉語音(TTS):新聞播報、導航播報、智能客服語音回覆、學習類 App 朗讀內容、無障礙讀屏等,需要將任意文本轉換為自然、清晰、可控的語音。
- 語音轉換 / 語音克隆(VC / Voice Cloning):在保持語義和韻律的前提下,改變說話人音色,實現“換聲說話”或“少樣本聲紋克隆”(在嚴格合規條件下)。
- 音樂與音效生成:為短視頻、遊戲、廣告、播客等生成合適的背景音樂與音效(環境聲、UI 聲效、過場音)。
- 歌聲合成與翻唱:給定旋律與歌詞,讓虛擬歌手演唱,或在合規前提下生成某種風格/音色的翻唱版本。
- 原理 語音與音頻生成通常採用“高層表示 → 低層波形” 的分層建模思路:
- TTS 中,先將文本轉為音素/音節/字級序列,再通過序列到聲學特徵(如梅爾譜)的模型(Tacotron、FastSpeech、VITS 等),最後用神經聲碼器(WaveNet、WaveRNN、HiFi‑GAN 等)從特徵生成高保真波形。
- Voice Conversion 中,通過解耦“說什麼(內容)”與“誰在說(音色)”,從源語音提取內容表示,再與目標說話人嵌入或聲碼條件結合,生成新的語音波形。
- 音樂與音效生成可基於 token 化的表示(如音符、MIDI、編碼後的頻譜/codec token),採用自迴歸、擴散(Diffusion)或神經 codec 生成模型,從文本、參考音頻或結構參數中採樣出新音頻。
- 歌聲合成在 TTS 的基礎上引入更精細的韻律、音高軌跡和歌唱控制,通常對音高、時值、連音、顫音等有顯式或隱式建模。
- 模型 當前語音與音頻生成的主流技術路線包括:
- TTS:Tacotron / Tacotron2、FastSpeech 系列(非自迴歸 TTS)、VITS 等負責從文本到梅爾譜或 codec token;WaveNet、WaveRNN、HiFi‑GAN、WaveGlow 等作為 vocoder 或解碼器負責從特徵到波形。最近的 Diffusion‑based TTS 和 Neural Codec 模型在自然度和多樣性上進一步提升。
- Voice Conversion / Cloning:基於 speaker embedding + content encoder 的 VC 框架,以及利用神經 codec 的語音轉換模型,支持少樣本音色克隆和跨語言說話人遷移。這類技術目前已被多家平臺商用落地,提供便捷的語音克隆調用服務,國內常見平臺包括火山引擎、minimax、科大訊飛開放平臺、百度智能雲千帆大模型平臺、阿里雲智能語音交互平臺等;海外則有 ElevenLabs、Resemble.ai、Play.ht 等主流平臺。其中,火山引擎的語音克隆能力支持少量音頻樣本快速訓練,適配智能客服、有聲讀物等多場景的商用調用;minimax 則依託其大模型技術優勢,實現了克隆音色與文本內容的自然適配,同時支持跨語言的說話人音色遷移;科大訊飛開放平臺的語音克隆在中文發音的清晰度和情感表現力上具備顯著優勢,廣泛服務於教育、廣電等領域。
- 音樂與音效生成:MusicLM、MusicGen、以及 Suno / Udio 類模型,通常基於文本和/或參考音頻條件,使用自迴歸或擴散架構在離散 codec token 上生成長時音頻。
4.4.1 文本轉語音(TTS):讓機器“自然開口說話”
文本轉語音(TTS)是最直觀的語音生成任務:輸入一段文本,輸出一段自然流暢的語音,理想狀態下可以與人聲幾乎難以區分。現代 TTS 系統通常分為兩個主要階段:文本到聲學特徵(如梅爾頻譜),以及聲學特徵到波形。
在第一個階段,模型需要處理分詞、音素化、多音字消歧、標點與停頓、韻律預測等問題。典型模型包括基於注意力的 Tacotron 系列和基於長度預測的 FastSpeech 系列,後者通過非自迴歸架構顯著加速合成、提升穩定性。近年來,VITS 等端到端模型將聲學建模和聲碼器融合在一個統一框架中,進一步簡化了系統。
在第二個階段,神經聲碼器(Neural Vocoder)如 WaveNet、WaveRNN、HiFi‑GAN、WaveGlow 等負責將梅爾譜或其他中間表示轉換為高保真波形。訓練良好的聲碼器不僅可以生成自然清晰的語音,還能很好地還原不同音色、情感和風格。現代 TTS 系統還支持 多說話人建模 (通過 speaker embedding)、音色/語速/情緒控制(如“興奮”“平靜”“播音腔”),以及跨語種 TTS,為各類應用提供高度定製化的聲音能力。
4.4.2 語音轉換與聲紋克隆:改變“誰在說”
在很多創作和輔助場景中,我們希望在不改變內容與韻律的前提下,改變說話人的音色或風格,這就是語音轉換(VC)和語音克隆(Voice Cloning)的任務。前者主要解決“把 A 的話變成 B 的聲音”;後者則進一步強調“少樣本甚至幾句語音就能學到新的音色”。
技術上,VC 通常採用“內容–音色解耦”的思路:通過一個內容編碼器提取說話內容與韻律信息(可以是基於 ASR 的離散單位,也可以是自監督的連續表示),再通過一個條件生成器結合目標說話人嵌入或 codec 條件,生成目標音色但語義與節奏基本不變的新語音。如引入神經 codec,則可以在編解碼空間直接編輯語音,實現高保真轉換。
語音克隆在 VC 的基礎上強調少樣本與泛化能力:模型需要從幾個樣本甚至幾秒音頻中提取穩定的說話人表示,並據此生成風格一致、音色接近的合成語音。這一能力在虛擬人設、個性化助手、遊戲角色定製、配音加速等方面非常有用,但也需要嚴格遵守法律與倫理規範,確保只在合規授權、充分知情和安全控制的前提下使用,避免濫用或身份冒充風險。
4.4.3 音樂與音效生成:從提示到完整聲景
相比語音生成,音樂與音效生成在結構與時間尺度上更為複雜:音樂往往持續時間更長,內部結構(段落、旋律、和聲、節奏)更加豐富;音效則種類繁多,從自然環境(雨聲、風聲、海浪)到擬聲(UI 點擊、提示音、遊戲技能音效)都有各自模式。近年來,基於神經 codec、序列建模和擴散的模型使得“從文本生成完整音樂/音效”成為現實。
在音樂生成中,像 MusicLM、MusicGen、Suno、Udio 等模型通常將音頻編碼為離散的 codec token 序列,再在這一離散空間上訓練文本條件或多模態條件的生成模型。用戶只需提供一段文本描述(如“節奏適中、溫暖治癒的 Lo‑Fi 背景音樂,適合學習專注”“緊張的電子管絃配樂,適合科幻預告片”),或上傳一段參考音樂片段,模型就能生成長度達幾十秒甚至數分鐘的高質量音樂。對於創作者,這既是靈感來源,也是快速打樣和背景音樂生成的利器。
在音效生成上,類似的技術可以根據文本提示生成 UI 聲效、通知音、遊戲環境聲等,幫助產品與遊戲團隊快速迭代聲音設計。結合前一層的音頻理解能力,還可以做到風格對齊與場景自適應,例如根據畫面或遊戲關卡自動匹配音效風格。
無論是語音還是音樂與音效生成,這一層能力都在快速演進:從早期合成味濃重的機器音,到現在與人聲、專業音樂難以區分的高保真內容。與此同時,圍繞版權、合規、溯源和可控性的問題也變得尤為重要——如何在提供強大創作工具的同時,保護創作者和使用者的合法權益,將是這一層技術持續需要面對的關鍵議題。
5. 視頻(Video)
在多模態 AI 體系中,視頻模態負責理解和生成“隨時間變化的視覺信號”。相比單幀圖像,視頻不僅包含空間維度上的紋理、形狀和佈局信息,還攜帶豐富的 時間維度線索 :動作的起落、物體的運動軌跡、鏡頭的切換節奏等。無論是安防監控中的行為識別、體育訓練中的動作分析,還是短視頻平臺的一鍵剪輯、長視頻的智能解析,本質上都依賴於一整套圍繞“幀序列”展開的理解與生成能力。
從工程視角看,視頻能力大體可以分為幾層:底層的視頻增強與復原負責保證“能看清”;視頻理解與結構分析負責回答“發生了什麼”;在此基礎上,視頻 + 語言多模態任務將視頻內容轉化為文本可用的結構化描述和檢索接口;進一步的,視頻生成與編輯則反過來從文本或示例視頻出發,用可控的方式生成或重組視頻內容;而以數字人 / 虛擬人為代表的一類應用,則將語音、語言、動作和視頻渲染綜合在一起,構成面向交互與內容生產的新形態。
下面我們同樣從分層能力出發,對視頻相關能力進行梳理。
5.1 傳統視頻處理:從“能播”到“好看、好用”
在視頻技術的最底層,我們首先關心的,並不是“畫面裡是誰”“發生了什麼事件”,而是這段視頻本身是否穩定、清晰、舒適:畫面抖不抖、糊不糊、噪點多不多、比例是否適合目標終端播放。傳統視頻處理這一層,主要在幀序列和時空像素層面工作,通過增強、修復、超分辨率、插幀和重定幀等操作,把嘈雜、抖動、分辨率不足或比例不合適的原始視頻,轉換為更適合觀看和後續分析的“高質量時序信號”。可以把它類比為圖像模態中的“圖像復原與增強 + 幾何校正”,只不過這裡額外引入了時間維度上的平滑與一致性。
從產品角度看,這一層能力幾乎“隱身”在所有視頻產品背後:剪輯軟件的一鍵畫質增強、短視頻平臺的自動畫質升級、電視盒子和播放器的智能超分與插幀、老影片修復服務,以及給上游檢測/識別模型做的多幀預處理,都是傳統視頻處理的直接體現。下面依然從 場景 、原理和模型三個角度來梳理,並在後續小節中展開視頻增強與修復、超分與插幀幾個關鍵方向。
- 場景 在線視頻平臺、剪輯工具、監控系統和終端設備中,傳統視頻處理主要出現在以下典型場景:
- 內容平臺與剪輯工具:短視頻、長視頻在上傳或編輯時,通過一鍵畫質增強、穩像、防抖、降噪,讓用戶“拿起手機就能拍、拍完就能用”;老視頻素材在導入剪輯工程時,通過修復和補幀,使其與新素材在觀感上更一致。
- 影視與老影片修復:對歷史膠片、早期電視節目和標清素材進行數字修復,去除劃痕、噪點和抖動,恢復色彩和細節,為重映、再發行和數字檔案保存提供更高質量的版本。
- 視頻監控與行車記錄:對弱光、雨霧、壓縮嚴重的監控畫面進行降噪、去霧、增強對比度和穩像,提升後續檢測和識別模塊的魯棒性,便於取證和溯源。
- 終端播放與設備側增強:電視、機頂盒、手機播放器本地集成超分和插幀功能,將存量的 720p/1080p、24/30fps 內容在播放端“升級”為近似 4K、60/120fps 的視覺效果。
- 多終端適配與分發:為同時覆蓋手機豎屏、平板橫屏和大屏電視,對同一視頻進行橫豎屏適配、智能裁剪和多比例重定幀,減少手工剪輯和多版本維護成本。
- 原理 傳統視頻處理通常不直接理解語義類別,而是圍繞畫質、穩定性和時間一致性在時空信號層面做建模和優化:
- 時空聯合建模:在單幀圖像增強的基礎上,引入時間維度的信息,通過光流估計、相機運動建模或時空卷積,把前後幀作為額外“觀測”,在時間軸上做多幀融合與噪聲抑制。
- 穩像與防抖:將相機抖動建模為一段時間上的幾何變換序列(平移、旋轉、縮放等),通過估計全局或局部運動軌跡,將其平滑後重新投影到輸出視頻中,從而達到去抖和穩定的效果。
- 視頻超分與插幀:視頻超分通過多幀對齊和細節重建,在提升空間分辨率的同時保持時間一致性;插幀則通過光流估計或時空生成網絡,在兩幀之間合成中間幀,用更高幀率呈現運動,提高流暢度。
- 重定幀與自動構圖:通過檢測和追蹤視頻中的主體(人物、物體),在時間軸上估計主體軌跡,再結合目標分辨率的長寬比,為每一幀選擇合適的裁剪窗口,並對裁剪窗口的運動進行時間平滑,保證觀感自然。
- 質量與效率權衡:在雲端離線處理可以追求最優畫質和複雜模型,而在手機、播放器和實時場景中則需要控制模型參數量、計算複雜度和延遲,在算法結構和推理框架上做精細折中。
- 模型 在具體實現上,傳統視頻處理綜合使用經典視頻信號處理方法和深度學習模型,在效果、效率與部署形態之間尋找平衡:
- 經典視頻處理方法:基於光流的穩像與插幀、時域濾波與多幀融合、基於塊匹配的去噪和去壓縮偽影等,仍然廣泛應用於算力受限或對可解釋性有要求的場景。
- 深度視頻復原與增強模型:以 EDVR、BasicVSR / BasicVSR++、Real‑ESRGAN 視頻版等為代表的多幀超分與增強網絡,通過對齊與時空特徵聚合,在去噪、去模糊、細節恢復和去壓縮偽影方面顯著優於傳統方法。
- 深度插幀模型:如 DAIN、RIFE、FILM 等插幀網絡,通過顯式或隱式光流估計與中間特徵融合生成中間幀,相比傳統光流 + 重採樣方法在複雜運動和遮擋場景中更穩定。
- 基於 Transformer 的視頻復原:利用時空注意力統一處理空間紋理與時間依賴,在複雜鏡頭運動、多物體場景下具備更強的建模能力,同時在推理時通過稀疏注意力、滑動窗口等機制控制計算量。
- 實際產品與系統:剪映 / CapCut 的智能增強、Topaz Video Enhance 等商用增強軟件,B 站及各短視頻平臺的畫質增強管線、老影片修復 SaaS 服務等,通常會將多種模型與策略級聯,按素材類型和終端條件動態選擇最優處理路徑。
綜合來看,這一層更多是在“語義之前”為視頻打好物理與感知基礎:既幫助用戶獲得更舒適的觀感,也為上游檢測、識別和生成模型提供更乾淨、更穩定的輸入。下面,我們分別從 視頻增強與修復 、超分辨率與插幀等子方向展開。
5.1.1 視頻增強與修復:把“能看”打磨到“好看”
在真實拍攝條件下,視頻往往並不“乾淨”:手持設備造成的劇烈抖動、弱光下的高噪點和塗抹感、網絡壓縮帶來的塊狀偽影和色帶、老舊設備錄製的褪色和劃痕,都讓視頻質量明顯低於理想狀態。視頻增強與修復的目標,就是在不改變視頻語義內容的前提下,最大程度恢復穩定、清晰、自然的觀感,把“勉強能看”的素材打磨到“看起來順眼甚至好看”的水準。
在時域上,增強與修復首先要解決的是穩定性問題。通過對連續幀進行特徵匹配或光流估計,可以分離出全局相機運動和局部物體運動,再利用平滑後的相機軌跡重新渲染輸出幀,從而抑制快速抖動與微小晃動,避免觀眾在觀看過程中產生眩暈感。在此基礎上,畫面級的去噪、去模糊和去偽影則更多集中在空間–時間聯合建模:多幀聯合去噪利用前後幀冗餘信息,在時間方向上進行類似“多曝光融合”的處理,在保留細節紋理的同時有效抑制高 ISO 噪聲和壓縮噪聲;對輕微運動模糊,則通過估計模糊核或使用端到端深度網絡,在幀序列上進行反捲積式的清晰化處理,使靜態背景和運動主體都更銳利。
對於老影片和低質量素材,修復還涉及色彩和結構層面的“重建”。膠片老化會導致畫面泛黃、對比度下降、局部劃痕和汙點顯著,早期數字視頻則常見分辨率低、壓縮嚴重和邊緣鋸齒等問題。現代修復流程往往採用多步協同:先利用檢測和分割模型定位劃痕、汙點等局部損壞區域,再通過時空補全網絡在鄰近幀和鄰近空間像素中“借料填坑”;同時進行色彩還原和對比度重塑,使整體色調接近原始拍攝或設定的風格參考。對於嚴重壓縮的視頻,還會引入針對塊效應和振鈴偽影的專用去偽影網絡,在不過度平滑的前提下改善邊緣和細節。
這些增強與修復能力在產品中的體現往往是“一鍵式”的:用戶只需勾選“穩像”“畫質增強”或“老視頻修復”,系統便會在後臺自動選擇合適的模型和參數組合,對視頻幀序列做多階段處理。對業務而言,這一層既直接決定了觀眾對畫質的主觀評價,也間接影響上游分析模型的表現:更乾淨、更穩定的視頻輸入,往往意味著更可靠的人臉/車牌識別、更準確的行為檢測和更少的誤報。
5.1.2 超分辨率與插幀:從“能看清”到“更流暢”
在顯示設備不斷升級、用戶對細節和流暢度要求不斷提高的背景下,大量存量視頻內容在分辨率和幀率上顯得“先天不足”:1080p 在 4K 屏幕上顯得不夠銳利,24/30fps 在大屏和快速運動場景中容易出現拖影或卡頓感。超分辨率與插幀技術正是為了解決這兩個問題:前者在空間維度上“補細節”,後者在時間維度上“補過程”,共同把“勉強能看清”的視頻提升為“細節豐富、播放順滑”的觀感。
視頻超分辨率相比單幀圖像超分多了一個關鍵維度:時間。簡單的逐幀放大容易導致相鄰幀細節不一致,出現閃爍和紋理抖動。因此,主流方法都會利用前後多幀的信息,通過光流估計或特徵級對齊,將鄰近幀中的細節對齊到目標幀上,再在對齊後進行細節重建。像 EDVR、BasicVSR / BasicVSR++、Real‑ESRGAN 視頻版等模型,會先在特徵空間對多幀進行對齊和聚合,再用深度網絡推斷高分辨率細節,避免簡單插值帶來的“糊”和“塑料感”。在這一過程中,如何在“物理合理”和“感官好看”之間平衡,是損失設計和訓練策略的核心:既要提升客觀指標(如 PSNR、SSIM),也要保證主觀觀感自然,沒有過度銳化和偽細節。
插幀則聚焦在時間軸上的“補幀”。傳統方法依賴光流估計,先預測前後兩幀之間每個像素的運動,再按照一定規則在中間位置插值生成新幀。然而在快速運動、多物體遮擋或紋理複雜區域,光流往往不夠準確,容易出現拖影、重影或局部形變。深度插幀模型如 DAIN、RIFE、FILM 等,通過端到端網絡同時學習光流、深度或中間特徵的融合策略,直接輸出插值幀,在複雜場景下的穩定性和視覺質量明顯提升。對於體育賽事、動作遊戲錄屏和慢動作創作,插幀可以將 24/30fps 的原始視頻平滑提升到 60/120fps,既保留運動細節,又減少卡頓和殘影。
在工程實踐中,超分和插幀常常結合使用:對低分辨率、低幀率的存量內容先做時序插幀,再進行空間超分,或兩者在統一的時空網絡中一體化實現。部署形態上,雲端離線處理適合對畫質要求極高的影視修復和平臺級“畫質升級”服務,而端側實時推理則更多見於電視盒子、播放器 App 和遊戲/運動相機中,需要通過模型壓縮和硬件加速保證低延遲。無論以何種形態呈現,超分與插幀已經成為“高清/超高清體驗”的重要基建,使舊內容在新終端上煥發“第二春”。
5.2 視頻理解與結構分析(Video Understanding)
如果說傳統視頻處理更多停留在“畫質與穩定性”層面,那麼視頻理解與結構分析則開始回答“視頻裡在發生什麼”這一類語義問題:誰在做什麼、在哪裡做、持續了多久、是否存在異常行為等。這裡的目標,是在時間軸上對視頻進行結構化拆解:識別動作與行為、檢測與跟蹤目標、分割前景與背景、劃分場景與鏡頭,並抽取出可供下游決策、檢索與告警使用的高層語義信號。
從產品視角看,這一層能力已經深入到各類智慧安防平臺、運動訓練分析系統、智能行車記錄儀和工業質檢視頻分析系統中:在監控中識別打架、摔倒、徘徊等異常;在體育和健身場景中分析動作規範性和技術細節;在交通與工業環境下追蹤車輛和人員軌跡、監控生產流程是否正常。下面依然從 場景 、原理和模型三個角度梳理這類能力,並在後續小節中重點展開幾個代表性方向。
- 場景
- 安防與公共安全:在城市監控、園區和樓宇中,識別打架、摔倒、聚集、奔跑、翻越圍欄等行為,對徘徊、深夜逗留等異常模式提前告警。
- 交通與出行:對行人、車輛、自行車在路口、隧道和高速上的軌跡進行檢測和追蹤,分析闖紅燈、逆行、佔道、超速等行為,為交管和事故溯源提供依據。
- 體育與運動訓練:分析籃球投籃、網球發球、瑜伽體式等動作的關鍵階段與姿態質量,為運動員和大眾用戶提供技術分析和糾錯建議。
- 工業生產與質檢:監控生產線上的作業步驟是否規範,檢測裝配過程中是否存在漏裝、錯裝或異常動作,為安全生產和良率提升提供基礎數據。
- 內容結構化與檢索:對長視頻進行鏡頭拆分、場景分類和重要片段標記,為後續檢索、推薦和剪輯提供結構化索引。
- 原理 視頻理解與結構分析的關鍵,是在時間維度上對空間目標和語義進行聯合建模:
- 動作識別與行為分析:基於 2D/3D 卷積、時序池化或 Transformer,對一段視頻片段進行整體編碼,識別其中發生的動作類別;進階方法結合人體關鍵點序列與骨架拓撲,更細粒度地分析動作質量與模式。
- 目標檢測與追蹤:在每一幀上做檢測的同時,引入跨幀關聯機制(外觀特徵、運動軌跡等),將同一目標在不同時刻的檢測框串聯為連續軌跡,得到多目標跟蹤結果。
- 視頻語義分割與場景分析:在像素級別上對視頻中的每一幀進行語義分割或實例分割,並利用時間連續性平滑預測;同時對鏡頭切換和場景邊界進行檢測,實現長視頻的結構拆解。
- 高層事件與異常檢測:在基礎的動作與軌跡特徵之上,利用時序建模和模式識別方法,對罕見事件和異常模式進行檢測,往往結合無監督或弱監督學習緩解標註稀缺問題。
- 模型 在模型選擇上,視頻理解與結構分析通常採用“空間特徵 + 時間建模”的組合架構:
- 基於 3D 卷積和 Two‑Stream 的經典模型,如 I3D 等,通過在空間和時間維度同時卷積,對短視頻片段進行端到端動作識別。
- 基於多路徑與多時間尺度的 SlowFast 系列模型,通過慢路徑捕捉語義、快路徑捕捉運動細節,在計算量和精度之間取得更好平衡。
- 基於 Transformer 的視頻模型,如 TimeSformer、Video Swin Transformer 等,利用時空注意力機制對長時間範圍的視頻進行建模,更適合捕捉複雜事件和多主體互動。
- Tube‑based 檢測器與時空卷積 / Transformer 模型,將檢測框在時間上擴展為“tube”,在空間–時間聯合特徵上做行為檢測與時空分割。
- 多目標跟蹤(MOT)方法,如 DeepSORT 等,將幀級檢測結果與外觀嵌入、運動預測結合,在視頻中穩定關聯目標身份。
整體上,這一層能力把視頻從“高質量像素流”進一步抽象為“行為與事件流”,為上游的多模態理解、檢索與決策奠定結構基礎。下面,我們從 動作識別與行為分析 、 目標檢測與追蹤 、事件與異常檢測三個方向展開。
5.2.1 動作識別與行為分析:從幀序列到“誰在做什麼”
動作識別與行為分析關注的是“在一段時間窗口內,主體在做什麼事”。在安防場景中,這意味著從視頻中識別出“走路、奔跑、摔倒、打架”等行為;在體育和健身中,則對應“投籃、發球、深蹲是否標準”“瑜伽體式是否到位”等更細粒度動作。技術上,早期方法主要依賴 2D 卷積 + 光流或手工特徵,將若干幀堆疊後整體分類;現代方法則更多采用 3D 卷積(I3D、一系列 3D ResNet 變體)、SlowFast 這類多時間尺度結構,或 TimeSformer、Video Swin Transformer 等基於時空注意力的模型,對空間紋理與時間變化進行聯合建模。
在許多需要高精度姿態分析的場景中,直接對 RGB 片段分類並不足夠,還會結合人體姿態估計和骨架序列建模:先從每一幀中提取 2D/3D 關鍵點,再將關鍵點序列送入 RNN、時序卷積或 GCN/Transformer 網絡,分析動作的時序結構和空間協調性。這種“姿態先驗 + 時序建模”的方式,對背景、光照和服裝變化更魯棒,適合瑜伽、健身、工業操作規範性評估等對動作細節要求較高的應用。
5.2.2 目標檢測與追蹤:從“這一幀在哪”到“整段軌跡”
單幀目標檢測可以告訴我們“這一幀裡有哪些目標、在哪兒”,而現實中的許多任務需要的是“這輛車 / 這個人從哪裡來、到哪裡去、中間做了什麼”。目標檢測與追蹤模塊正是為了把幀級檢測串成時間上的連續軌跡:一方面在每一幀上運行檢測器,給出候選目標框;另一方面基於外觀特徵(ReID 嵌入)、運動預測(卡爾曼濾波)和空間重疊等線索,將相鄰幀上的框進行匹配與關聯,得到多目標跟蹤(MOT)結果。
在工程實踐中,一個典型的流水線是:“強健的行人 / 車輛檢測 + DeepSORT 一類的關聯算法”,部署在監控或行車記錄儀上,實時輸出每個 ID 的運動軌跡。在更復雜的系統中,這些軌跡還會結合區域語義(車道、區域劃分)與業務邏輯規則,進一步推斷逆行、長時間逗留、頻繁進出等高層行為模式,為上游安防、交通流量分析和工業流程監控提供連續時序信號。
5.2.3 事件與異常檢測:從“常態模式”中找出“不對勁”
在大部分業務場景中,真正需要重點關注的往往是“少數異常”和“關鍵事件”:例如安防中的打架、摔倒、聚集,工業生產中的異常停機或違規操作,交通中的危險駕駛行為等。這類事件相對罕見,標註成本高、樣本極不平衡,給模型建構帶來了額外挑戰。
常見的做法,是在基礎的動作識別、目標跟蹤和場景分割之上,構建一個時序異常檢測模塊:要麼通過有監督方式直接學習少量已標註的異常樣本;要麼採用無監督/弱監督方法,對“正常模式”的運動與行為分佈進行建模,一旦新觀測與歷史分佈明顯偏離,就發出告警。在模型層面,會結合時序自編碼器、對比學習、圖神經網絡或時序 Transformer,將空間關係和時間依賴統一編碼,從而捕捉更復雜的群體行為模式和長程依賴。
5.3 視頻 + 語言多模態任務(Video‑Language)
如果說視頻理解解決的是“視頻本身理解清楚了”,那麼視頻 + 語言多模態任務關注的是“如何用自然語言去描述、問答、檢索視頻內容”,以及“如何在長視頻時間軸上,圍繞文本需求快速定位關鍵信息”。這類任務需要同時處理視覺、語音與文本信號:一方面提取視頻中的畫面與聲音特徵,另一方面對接語言模型的推理與生成能力,把時空內容壓縮成適合人類消費和機器調用的文本摘要、問答結果與語義索引。
從產品視角看,這一層能力已經深入長視頻自動生成字幕與時間軸、短視頻剪輯平臺的“智能打點 / 關鍵片段抽取”、企業培訓和會議視頻的問答助手等場景:用戶不必再“從頭看到尾”,而是可以通過自然語言直接對視頻內容進行檢索、提問和重組。下面依然從 場景 、原理和模型三個角度展開。
- 場景
- 字幕與摘要生成:對課程、演講、會議和長視頻內容自動生成多語言字幕,並在此基礎上生成章節級摘要、看點列表與時間軸。
- 視頻問答與知識訪問:對教學視頻、操作演示、企業培訓內容構建“視頻問答助手”,支持用戶用自然語言提問,如“這個步驟怎麼做”“這個人最後把手機放哪了”。
- 視頻內容檢索與片段定位:在大規模視頻庫中支持“文字 → 視頻片段”的精確檢索,例如“找出提到價格的部分”“找到講解某個公式的片段”;在單個長視頻內自動打點標註精彩片段與關鍵信息。
- 內容生產與編輯輔助:結合視頻內容理解與語言生成功能,自動生成標題、文案、分鏡腳本,輔助創作者快速剪輯和重組素材。
- 原理 視頻–語言多模態系統的核心,是在統一嵌入空間中對齊時序視覺特徵與文本表示,並在這一基礎上進行檢索、生成與推理:
- 多模態特徵抽取與對齊:對視頻幀/片段提取時空特徵(CNN/ViT/Video Transformer),對文本提取語言嵌入(預訓練 LLM 或文本編碼器),通過對比學習或多模態預訓練對齊兩種模態。
- 語音與文本管線:對包含語音的內容,通常先用 ASR 生成時間戳對齊的轉寫文本,再與視覺特徵聯合建模,既可以用文本直接驅動檢索,也可以做跨模態對照與糾錯。
- 時間建模與片段定位:對於長視頻,需要在時間軸上學習“片段級”表示,通過注意力或時序 RAG 在局部片段和全局上下文之間動態切換,實現對問題相關區間的精確定位。
- 生成與推理:在對齊後的多模態表示上接入大語言模型,進行自然語言生成(字幕、摘要、解釋),或進行多輪問答與邏輯推理。
- 模型 在模型形態上,視頻–語言多模態任務經歷了從“專用編碼器 + 簡單頭”到“統一多模態大模型”的演進:
- 早期視頻–語言模型:如 VideoBERT 等,在預訓練階段聯合建模視覺與文本 token,通過掩碼預測和對比學習獲得可遷移的視頻–語言表徵。
- All‑in‑One Video‑Language Models:將視頻、文本(及語音)統一納入一個多模態 Transformer 中,通過共享或部分共享參數,實現描述生成、檢索、QA 等多任務統一處理。
- 長視頻多模態模型:如具備視頻能力的 Gemini、Claude、GPT 等,通過長上下文與分層時序建模,對數十分鐘乃至數小時視頻進行整體理解,支持時間軸級別的摘要與問答。
- 時序 RAG + VLM:在視頻上構建“時序向量索引”,先用 VLM 對視頻片段進行編碼建立數據庫,再在查詢時檢索相關片段,結合 LLM 進行答案綜合與可解釋推理。
總體來看,這一層將視頻從“機器理解”進一步提升到“人機對話與協作”層面:用戶可以像問人一樣向視頻提問,系統則在背後完成複雜的視覺、語音與語言對齊與推理。
5.3.1 字幕、摘要與時間軸:把長視頻壓縮成可瀏覽文本
對於課程、講座、會議和長內容視頻,最迫切的需求往往是“快速知道講了什麼、哪裡是重點”,而不是從頭到尾完整觀看。自動字幕與摘要系統通過“ASR + 文本處理 + 視覺輔助”的組合,將音頻內容轉寫為時間戳對齊的文本,再在此基礎上生成結構化大綱與精簡摘要,實現從“小時級視頻”到“分鐘級閱讀”的信息壓縮。
在實現層面,ASR 模塊負責穩定、高質量地給出多語言轉寫和時間軸對齊;文本側則利用大語言模型對原始轉寫進行糾錯、分句和語義重整,提取章節標題、關鍵信息和問題–答案對。在一些場景中,還會結合視覺線索(如 PPT 頁面變化、場景切換)來輔助劃分章節邊界與重點片段,保證摘要結構與真實內容節奏更加一致。
5.3.2 視頻問答與語義檢索:用自然語言“操縱”視頻
在字幕與摘要之上,更進一步的需求是能夠針對特定視頻內容進行問答和檢索:例如“這個人最後把手機放在哪裡”“哪一段講到了價格策略”“演示這個步驟的是第幾分鐘”。這類任務需要在時間軸上對問題進行語義定位:既要理解問題本身涉及的人物、物體和動作,也要在視頻時序表示中找到對應的片段。
具體做法上,通常會先離線為視頻構建多粒度索引:對固定長度的片段提取多模態表示(畫面 + 文本/語音),建立向量索引或圖結構。在在線交互時,將用戶問題編碼為文本向量,與索引中的片段表徵進行匹配,找出最相關的時間區間;隨後,將這些片段的內容(關鍵幀截圖描述、轉寫文本等)與問題一起送入 LLM,由模型生成自然語言答案或返回對應時間點。對於大規模視頻庫,可以在相同機制下支持“跨視頻檢索”,例如在企業培訓知識庫或電商商品視頻中跨集合查找相關片段。
5.3.3 多模態編輯輔助:從理解到“幫你剪好”
當系統能夠穩定地理解視頻中的內容和語義結構後,自然的下一步就是反向利用這些理解結果來輔助創作與編輯。視頻–語言多模態模型可以根據創作者提供的腳本或提示詞,在現有素材中自動選取符合語義的片段,生成粗剪時間線;也可以根據視頻內容自動生成標題、封面文案、章節標籤,甚至對鏡頭節奏和配樂提出建議。
在工作流中,這類能力通常以“智能推薦”和“自動粗剪”的形式出現:創作者上傳素材後,系統自動完成分析、分鏡、打點,並給出若干候選版本(如不同節奏、不同時長的剪輯方案);創作者可以在此基礎上微調,而無需從零開始逐幀篩選。對於企業級應用,系統還可以結合知識庫和品牌規範,確保生成的文案、字幕和剪輯風格符合既定的業務要求和合規標準。
5.4 視頻生成與編輯(Video Generation & Editing)
在擁有了穩定的理解和結構分析能力之後,視頻生成與編輯則邁向了“主動創造內容”的階段:不再只是提升畫質或做結構化分析,而是根據文本腳本、參考圖像或已有視頻,生成全新的鏡頭,或對原始視頻進行結構化編輯與重組。這裡既包括從無到有的文生視頻(Text‑to‑Video),也包括基於已有圖像/視頻的風格遷移、擴展與重排,以及面向對象級別的精細編輯與替換。
產品上,這一層能力已經通過即夢視頻、 minimax 視頻、Sora、Runway Gen‑2、Pika、Kling 等一系列產品進入內容創作主流:廣告片、概念片、動畫、劇情分鏡可以在不依賴大型拍攝團隊和複雜後期的情況下快速生成;創作者可以通過自然語言腳本驅動鏡頭和風格;傳統的視頻剪輯流程則開始與結構化生成工具深度融合。下面依然從 場景 、原理和模型的角度進行梳理。
- 場景
- 文案、劇本到短視頻:品牌廣告、小劇場、劇情片段和概念動畫,根據腳本自動生成或半自動生成可播放的視頻草稿。
- 圖像 / 視頻到視頻:為插畫或角色設計生成動態版本,為現實拍攝素材進行風格遷移(現實 → 動漫 / 插畫),或在時間與空間上擴展/重組已有視頻。
- 結構化編輯與後期:在不改變整體內容語義的前提下,實現人物換臉、口型同步、對象擦除與替換、文本驅動的剪輯重排等精細操作。
- 原理 當前主流視頻生成與編輯方法多以擴散模型(Diffusion)或其變體為核心,在高維的時空潛空間中逐步“去噪”生成視頻:
- 文本條件建模:通過文本編碼器(如 T5/CLIP 文本塔或專用語言模型)將腳本映射為條件向量,引導視頻解碼器在風格、內容和運動模式上對齊文本描述。
- 時空一致性與運動控制:在擴散過程或後驗優化中加入時空卷積、時序注意力或 4D 表達(NeRF/GS 等),保證視頻在時間軸上的連貫性與物理合理性。
- 圖 / 視頻條件生成:在輸入圖像或視頻的特徵空間上啟動擴散過程,通過控制噪聲注入、遮罩區域和條件通道,實現“保留已給部分 + 生成新內容”的受控編輯或擴展。
- 結構化控制信號:結合姿態骨架、分割掩膜、深度圖、相機軌跡等結構信息,使生成視頻在主體動作和視角變化上更可控。
- 模型 代表性的模型與方向包括:
- Diffusion‑based Text‑to‑Video 模型(Sora、Runway Gen‑2、Pika、Kling 等),通過大規模視頻–文本對進行預訓練,在複雜場景、多鏡頭運動和多樣風格上具備較強生成能力。
- Image‑to‑Video 擴散模型:以單幀圖像為條件,預測後續幀的動態演化,實現“單圖 → 動畫 / 動效”;或對短視頻進行續寫、擴展、旋轉視角等操作。
- NeRF / 4D 表達與關鍵幀 + 插值方法:利用 3D 場景表示或關鍵幀 + 時序插值,將生成與幾何、一致性建模結合,實現更穩定的視角漫遊與複雜運動。
這些能力並非孤立存在,而是逐步滲入剪輯與後期流水線:文案到分鏡、分鏡到粗剪、粗剪到風格化與局部編輯,越來越多環節被“文本 + 結構化控制”所驅動。
5.4.1 文生視頻:從腳本到“可看”的鏡頭序列
文生視頻(Text‑to‑Video)希望實現的是:用戶用自然語言描述一個場景、鏡頭或故事片段,系統自動生成一段連貫的視頻。與圖像生成相比,文生視頻增加了時間維度的難題:不僅要在單幀層面保持畫面質量和風格一致,還要保證跨幀的主體身份、光照、背景和運動軌跡的連貫性。
典型的擴散式文生視頻模型會先在大規模視頻–文本配對數據上預訓練:文本編碼器提取語義條件,視頻解碼器在潛空間中對一段“噪聲視頻”反覆去噪,逐漸收斂到與文本一致的時空信號。在此過程中,會通過時序注意力、3D 卷積或 4D 表達等結構,將時間依賴顯式建入網絡,以避免出現“幀間跳變”“角色重置”等問題。部分系統還支持對鏡頭運動(推拉搖移)和構圖節奏進行控制,使生成結果更接近真實拍攝語言。
5.4.2 圖 / 視頻到視頻:在已有內容上“生長”與“變形”
另一條重要路線是基於已有圖像或視頻進行生成與編輯:例如,將一張插畫或概念設定圖“動起來”,將真人視頻風格化為動漫,或在保持結構不變的前提下更換背景、調整天氣和時間。技術上,這類方法往往在擴散過程上增加“參考通道”:將輸入圖像或視頻編碼為特徵,作為條件或初始狀態參與去噪,同時通過遮罩、顯式幾何約束等機制控制“哪些區域可以被改變、哪些必須保持”。
對於風格遷移場景,模型會在保留原始運動和構圖的前提下,重繪紋理和光影,使其匹配目標風格;對於視頻擴展與重組,則通過在時間兩端或中間“續寫”新幀,實現水平/垂直場景擴展、視角繞行或情節補充。這類能力非常適合與傳統剪輯流程結合:剪輯師先給出關鍵鏡頭和節奏,模型再在這些“錨點”之間自動生成過渡和變體。
5.4.3 結構化視頻編輯:對象級的精細控制
在許多業務場景中,完全重生視頻並非剛需,更關鍵的是對已有畫面進行精細、可控的結構化編輯:比如換臉、改口型、擦除不需要的物體、替換廣告位內容,或者根據文本腳本重排鏡頭順序。結構化視頻編輯正是沿著這一思路發展:在視頻理解的基礎上,引入對象級分割、跟蹤和參數化表示,使編輯操作可以穩定綁定到特定目標和時間段。
人物換臉和口型同步(Lip‑sync)是這一方向中最典型的應用:模型需要在保證頭部姿態與整體表情自然連貫的前提下,將目標人物的身份映射到原視頻的表演上,並根據新語音信號精確控制口型運動。對象擦除 / 替換則依賴高質量的分割和時空補全:先在每一幀中分割並移除目標對象,再利用鄰近幀與上下文紋理填補空洞,避免出現明顯“打補丁”的痕跡。文本驅動剪輯則通過將“腳本結構”與視頻時間軸對齊,自動選取和拼接符合腳本語義的片段,實現更高層的自動化編輯。
5.5 數字人 / 虛擬人(Digital Human / Avatar)
數字人 / 虛擬人(Digital Human / Avatar) 可以看作是視頻生成、語音合成、多模態理解和圖形渲染的一次“系統級整合”:它不只是生成一段視頻,而是基於文本或語音輸入,持續、可控地驅動一個虛擬形象“開口說話、做表情、擺動作”,並在越來越多場景下實現準實時甚至實時的交互。相比一般的視頻生成,數字人更強調三點: 身份與形象的長期一致性、語音—表情—動作的精細對齊、以及端到端系統的實時性與穩定性 。
從產品視角看,數字人已經廣泛出現在內容生產平臺、虛擬客服 / 智能前臺 / 虛擬導覽、教育培訓與在線課堂、品牌虛擬 IP / 虛擬偶像、為創作者提供的虛擬主播 / 數字分身工具等場景:企業可以批量生產帶有固定形象和風格的視頻內容,政府和企業服務可以用虛擬前臺 7×24 小時接待用戶,個人創作者可以完全不露臉但持續產出“有人出鏡”的視頻。下面依然從 場景 、原理和模型三個維度來梳理,並在後續小節展開驅動與表達、形象與視頻生成、實時交互與系統集成三個方向。
- 場景
- 內容生產與在線傳播:企業宣傳片、產品功能講解、課程錄製、新聞播報,使用數字人替代真人上鏡,大量減少拍攝場地、燈光設備和人力成本。
- 虛擬客服與導覽:在銀行網點、政務大廳、景區、博物館等場所,用數字人承擔迎賓、問詢、業務諮詢和路線指引,兼顧形象統一與 7×24 小時服務。
- 品牌虛擬 IP / 虛擬偶像:圍繞某一虛擬形象長期運營短視頻、直播、電商內容,在不同平臺上保持統一人設和視覺風格。
- 虛擬主播與數字分身:為不願出鏡或需要多身份運營的創作者,提供可配置的虛擬主播 / 數字分身,與真實聲音或合成聲音綁定,實現“只用說話 / 打字,就能穩定出鏡”。
- 原理 數字人系統本質上是一個“語音 / 文本驅動 + 形象建模 + 視頻 / 渲染輸出”的多模態流水線,在離線與實時場景下略有差異,但核心組件相似:
- 語音與語言驅動:根據腳本直接用 TTS 合成語音,或接入 ASR + LLM,從用戶語音 / 文本中生成回覆文本,再用 TTS 輸出語音;語音特徵(如 mel 頻譜)作為驅動信號控制嘴型與表情時間軸。
- 形象與動作空間建模:為虛擬形象構建可控的幾何與外觀表示,例如 2D 人像 / 插畫、基於骨骼和 Blendshape 的 3D Avatar、或基於 NeRF / 4D 高斯的可渲染體積表示;並定義一組“驅動參數”(如關鍵點、姿態骨架、Blendshape 係數),用來編碼表情與姿態。
- 語音 → 表情 / 動作映射:通過專門的“語音驅動”模型,將語音特徵映射為人臉和上半身的驅動參數,實現口型同步(Lip‑sync)、表情細節和頭肩動作;實時數字人會要求這一映射端到端低延遲且穩定。
- 渲染與合成:根據當前幀驅動參數,對虛擬形象進行圖像或 3D 渲染,輸出連續視頻流或實時畫面;可疊加背景、道具、字幕等元素,與傳統視頻剪輯流程結合。
- 模型 在具體模型上,數字人系統往往綜合使用多類專用模型與通用多模態模型:
- Audio‑driven Talking Head 模型:如 Wav2Lip 一類的口型同步模型,通過學習語音與口腔區域像素 / 幾何之間的對齊關係,在保證身份一致的前提下生成自然的嘴部運動。
- 實時 / 輕量級數字人模型:如 Ultralight‑Digital‑Human、輕量級 Talking Head 模型等,在結構上大幅壓縮參數與計算量,使得在 CPU / 移動端 / WebGPU 上也能實現接近實時的驅動與渲染。
- NeRF / 4D 表達模型:如 ER‑NeRF(Explicit / Efficient / Editable 方向的數字人 NeRF 方案)等,通過在 3D 空間中建模人物形象與表情變化,使視角、光照和動作更自然連貫,適合高保真和多機位場景。
- 語音驅動與多模態對齊模型:如 MuseTalk 一類“語音 → 面部表情 / 說話頭”模型,將音頻特徵和視覺特徵對齊,在不依賴大量 3D 標註的情況下實現逼真的講話表情與頭部動作。
- 語音與對話模型:高自然度多說話人 TTS、端到端語音對話模型(ASR + LLM + TTS 一體化),為數字人提供多風格、多語種的聲音和對話能力。
綜合來看,數字人既是一組模型,也是一套完整系統:它將語言理解、語音、視覺生成與實時推理整合起來,從而在“屏幕前”呈現出一個可交互的虛擬角色。下面,我們從 驅動與表達 、形象與視頻生成和實時交互與系統集成三個方向展開。
5.5.1 驅動與表達:從腳本 / 語音到“會說話、會表情”的人
在數字人流水線中,驅動與表達負責回答一個核心問題:在給定腳本或語音的前提下,虛擬形象在每一幀應該呈現什麼樣的嘴型、表情和頭肩動作。這裡既包括離線批量生產的場景,也包括對實時對話的響應。
在離線內容生產中,常見鏈路是“文本腳本 → TTS → 語音驅動”:業務側提供播報文案,TTS 模塊生成目標音色(如品牌虛擬代言人)的語音,再將語音特徵輸入到“語音 → 動作”模型。Wav2Lip 類模型就是這一環節的重要代表:
- 它以參考人像幀和對應語音片段為輸入,通過一個卷積 / 注意力網絡預測出與語音精細對齊的嘴部區域,再與原始人像進行融合,從而在保持身份和大部分表情不變的前提下,精確修改嘴型。
- 訓練時,通過語音–視頻對齊數據監督網絡學會不同音素對應的口腔形態,並在時間上保持連續性,避免嘴型跳變或延遲感。
相比早期純口型同步方案,新一代的語音驅動模型(如 MuseTalk 一類的方法)進一步擴展到了 全臉表情和頭部姿態 :
- 這類模型通常將語音特徵映射到一個低維的“情緒 / 表達潛空間”,再通過解碼器生成關鍵點、Blendshape 係數或直接生成圖像特徵,帶動眉毛、眼睛、頰部等區域的細微變化,使“說話表情”更生動。
- 有的模型還會將語音內容的語義信息(如疑問、強調、感嘆)編碼進去,結合 LLM 分析的句法 / 語用信號,在語調變化處增加點頭、皺眉、手勢等動作,提升表達的自然度和感染力。
在更高維度上,驅動與表達也可以結合外部控制信號:例如將姿態骨架、手勢軌跡、視線方向等作為附加輸入,使數字人可以模仿特定演講者的風格,或根據腳本中的“指示動作”(如“指向屏幕”“雙手張開”)執行預定義的動作模板。無論是 Wav2Lip 這樣的局部口型驅動,還是 MuseTalk / 實時骨架驅動等更全身的表達建模,它們共同實現了從語音 / 文本到面部與上半身動作的連續映射,是數字人“看起來像在認真說話”的關鍵一環。
5.5.2 形象與視頻生成:從“一個模型”到“一個可塑的角色”
驅動鏈路解決了“怎麼動”,而形象與視頻生成則決定了“誰在動、在哪裡動、以什麼風格動”。這裡既包含高保真寫實數字人,也包含二次元、卡通和低多邊形 Avatar 等風格化形象,以及面向實時和離線渲染的不同技術選型。
在 2D 人像與插畫場景中,典型做法是基於少量參考圖像和短視頻訓練一個 Talking Head 生成模型 :
- 模型將人物的身份信息編碼為一個“外觀向量”或風格特徵,將驅動參數(如語音隱向量、關鍵點、表情編碼)作為條件輸入,在圖像空間中合成新的幀。
- 與純 Wav2Lip 只改口型不同,這類模型可以在姿態上做小幅度擺動、在表情上疊加情緒變化,從而讓數字人看起來不那麼“僵硬”。
在追求更高真實感、更自由視角和多機位切換的場景中,越來越多方案採用基於 NeRF / 4D 表達的數字人建模(如 ER‑NeRF 一類方法):
- 通過多視角拍攝或視頻,先重建人物頭部 / 上半身的 3D 體積或高斯場,將不同表情和嘴型對應的狀態編碼為可插值的隱空間;
- 驅動時,將語音 / 表情參數映射到這一隱空間,在 3D 中進行體積渲染或高斯渲染,再投影到屏幕上。
- 這種做法的優勢在於:視角、光照和背景更自然,可以支持“環繞視角”“虛擬攝影機”運動,對 VR/AR、虛擬直播間和高端廣告製作尤為友好。
在強調跨端部署與實時性的業務中,還會採用 Ultralight‑Digital‑Human 這類輕量化方案:
- 通過結構剪枝、算子重構和模型蒸餾,將 Talking Head 或 Avatar 渲染網絡壓縮到移動端 / WebGPU 也能運行的規模;
- 在幾毫秒級別完成從驅動參數到一幀圖像的生成,與實時語音流或控制信號對齊,實現“低延遲數字人”,適合互動終端、自助機和 Web 前端應用。
在完整視頻生產層面,形象與視頻生成還要與背景、道具和鏡頭語言結合:一個常見的工作流是:
- 先為品牌或個人定製一個數字人形象(2D 或 3D);
- 預設若干虛擬場景(演播廳、辦公室、教室、展廳等);
- 在生產內容時,系統根據腳本自動選擇合適場景和機位,生成數字人畫面,並與 PPT、演示視頻、產品畫面進行多畫面編排。 這使得數字人不只是一個“說話頭”,而是可以自然融入各種節目和內容形態的“角色”。
5.5.3 實時數字人與系統集成:從離線視頻到“屏幕裡的同事”
隨著 ASR、TTS、LLM 和輕量級視頻生成模型的成熟,越來越多數字人系統開始從離線批量出片走向 實時交互 :用戶在終端開口說話或輸入文本,屏幕上的數字人在幾百毫秒到幾秒內“聽懂—思考—回應—開口說話”,形成類似真人客服 / 導覽 / 主持的體驗。這裡的關鍵不只是模型本身,還包括如何把多模態鏈路 壓縮到可接受的端到端延遲 。
在一個典型的實時數字人閉環中:
- 前端輸入 :ASR 模塊將用戶語音實時轉為文本,或直接接收用戶文本輸入。
- 語義理解與決策 :LLM 結合業務知識庫和工具(RAG、數據庫查詢、流程編排)生成回覆文本,以及必要的結構化指令(如需要展示哪一頁 PPT、播放哪個視頻片段)。
- 語音與驅動 :TTS 將回覆文本轉換為目標音色的語音,語音流一邊生成、一邊被 Wav2Lip / MuseTalk / 實時骨架驅動模型消費,逐段輸出對應的口型與表情參數。
- 渲染輸出 :Ultralight‑Digital‑Human 類型的輕量渲染網絡或基於 GPU 的 NeRF / Avatar 渲染引擎,將驅動參數實時轉換成視頻幀,通過 WebRTC、RTMP 或本地渲染直接輸出到屏幕。
為了在多終端上提供一致體驗,系統還需要在延遲、帶寬與算力之間做細緻權衡:
- 在雲端渲染方案中,絕大部分計算(LLM、TTS、驅動與渲染)在服務器完成,終端只負責播放視頻流,適合算力有限的 Web / App 和線下大屏,但對網絡穩定性有依賴;
- 在“雲 + 端混合”方案中,ASR 和部分 LLM 推理在雲端完成,輕量化驅動與渲染在本地進行,可以顯著降低音畫交互延遲,適合移動設備與自助終端;
- 在強算力終端(如高性能 PC、專用工作站)上,還可以將大部分鏈路下沉本地,實現弱網環境下的穩定互動。
在模型側,實時數字人也對結構設計提出了額外要求:
- 語音驅動模型需要具備流式推理能力,能夠在獲得一小段語音後就給出口型與表情預測,而不是等整句結束;
- 渲染網絡需要儘可能減少依賴大卷積核和全局注意力,採用局部卷積、輕量自注意力、分辨率金字塔等結構控制計算量;
- 對於基於 NeRF / 4D 的高保真方案,則需要通過網格緩存、視錐裁剪、稀疏體積和 GPU 優化等手段,把每幀渲染控制在幾毫秒到幾十毫秒內。
在系統集成層面,實時數字人往往還要與業務知識、人格設定與對話策略緊密綁定:
- 通過知識庫和 RAG 管理行業知識、業務流程和 FAQ,確保“說得對、說得全”;
- 通過人設配置和話術模板控制說話風格和表達邊界,確保“說得像這個人(或這個品牌)”;
- 通過多輪對話策略與會話狀態管理,使數字人可以記住用戶上下文、在合適時機確認和追問,呈現出“像一個真正的同事 / 導遊 / 講師”的交互感。
總體而言,加入了 Wav2Lip、MuseTalk、ER‑NeRF、Ultralight‑Digital‑Human 等專門為口型同步、表情驅動與實時渲染設計的模型之後,數字人正從“離線視頻模板工具”加速演化為 可實時響應、有穩定人格和專業知識的虛擬實體 ,成為視頻技術體系中最具綜合性和應用張力的一環。
6. 時間序列與時序決策(Time Series & Sequential Decision)
在前面的視覺和結構化建模中,我們更多是在“靜態”空間下思考問題:一張圖、一條記錄、一段文本。而在真實業務中,極大一部分核心指標都是隨時間演化的:銷售量和流量每天在波動,服務器負載和傳感器讀數每秒在變化,金融價格與宏觀指標則在政策和事件驅動下不斷調整。時間序列與時序決策這層,關注的就是:在時間軸上預測未來、識別異常、刻畫結構突變,並在此基礎上做出有前瞻性的決策與控制。
從產品視角看,這類能力貫穿運營、規劃、風控和調度等關鍵環節:傳統 BI / 報表系統中嵌入的指標預測模塊、財務與供應鏈規劃工具中的需求預測和安全庫存建議、量化研究分析軟件中的宏觀關聯分析和因果關係挖掘、電商和出行平臺上的流量與運力預測、運維 AIOps 中的指標異常檢測與告警,都是這一層的典型落地形態。下面我們從 經典統計方法 、 深度學習時間序列建模 、異常與變點檢測以及時空序列建模四個方向展開。
6.1 經典時間序列建模(Statistical TS Modeling)
在很多業務裡,“時間”是天然的主線:銷售量按日/周變化、網站流量隨活動波動、設備負載跟著用戶行為起伏、傳感器讀數反映著系統狀態的細微變化。經典統計時間序列建模就是在這種時序結構上,利用相對可解釋、可分析的統計模型去回答三個核心問題:未來會怎樣?變量之間如何關聯?系統當前所處的狀態是什麼? 儘管深度學習已經在許多場景中嶄露頭角,但 ARIMA、協整分析、卡爾曼濾波等傳統方法,仍然在金融、供應鏈、運營、風控等領域長期服役,並常常作為更複雜系統的“基線”和解釋工具。
從應用視角看,經典時間序列模型廣泛存在於傳統 BI/報表系統的指標預測模塊、財務與供應鏈規劃工具、以及各類量化研究軟件中。它們可以直接對單個或多個時間序列給出未來預測區間,也可以用來分析宏觀指標之間的協同變化與長期均衡關係,並通過狀態空間建模對軌跡和隱藏狀態進行估計。下面,我們從 場景 、原理和模型三個維度來梳理這類方法的典型用法,再分別展開具體方向。
- 場景
- 指標預測:對銷售量、網站流量、CPU 負載、傳感器讀數等按時間變化的數值進行短期或中期預測,用於庫存備貨、產能安排、運維調度等決策。
- 宏觀經濟與金融分析:研究 GDP、通脹率、利率、匯率、資產價格等宏觀和市場指標之間的長期關聯和短期動態,輔助政策研究與量化策略開發。
- 過程與軌跡估計:在定位、導航、目標跟蹤和設備監控中,對隨時間變化的軌跡、速度、狀態進行估計與平滑,並在噪聲環境中儘可能還原“真實過程”。
- 原理 經典時間序列方法普遍基於“ 統計假設 + 參數化結構 ”的思路:
- 假定時間序列滿足一定的平穩性或弱平穩性條件,通過自相關結構(自相關函數 ACF、偏自相關函數 PACF)刻畫“當前值由過去多少階的歷史決定”。
- 在多變量情形中,通過協整與向量自迴歸(VAR)模型,刻畫多個時間序列之間的長期均衡關係與短期偏離修正。
- 對於噪聲嚴重、狀態不可直接觀測的系統,引入隱含狀態(latent state)與觀測方程組成狀態空間模型,用貝葉斯推斷或遞推濾波(如卡爾曼濾波)進行在線估計與預測。
- 模型 這類方法的模型族相對明確、結構清晰,便於解釋和調參:
- 單變量與多變量 AR/MA/ARIMA/SARIMA 系列,用於平穩/季節性時間序列建模,是 BI 系統和傳統預測模塊的“常駐成員”。
- VAR/協整模型,用於多維宏觀和金融時間序列的聯合建模和因果關係檢驗,適合政策和策略層面的關聯分析。
- 狀態空間模型與卡爾曼濾波、隱馬爾可夫模型(HMM)等,用於軌跡估計、設備狀態估計以及隱藏狀態的推斷,是工程控制與信號處理中的基礎工具。
綜合來看,經典時間序列建模的優勢在於 可解釋性、可診斷性和工程可控性 :建模流程、假設檢驗、殘差分析都有成熟規範,很容易融入現有 BI 與規劃系統。下面,我們從單/多變量預測、協整與因果、狀態空間三個方向展開。
6.1.1 單變量/多變量時間序列預測:從 ARIMA 到 VAR
在最典型的業務場景中,我們首先面對的是一條或若干條按時間排序的指標曲線:例如某商品每日銷量、站點每小時 PV、機房每分鐘 CPU 使用率、設備傳感器每秒讀數。目標是根據歷史走勢對未來的短期或中期區間給出預測,並給出合理的置信區間。AR/MA/ARMA/ARIMA/SARIMA 系列模型正是為此設計的標準工具。
對單變量序列來說,ARIMA 類模型假設“當前值由過去若干期的歷史值和隨機擾動線性決定”,通過對序列做差分、季節差分來消除趨勢和季節性,使其趨於平穩:
- AR(自迴歸)部分刻畫“自身滯後對當前值的影響”;
- MA(滑動平均)部分捕捉“歷史誤差項對當前值的影響”;
- I(差分)部分負責去除趨勢;
- 加上季節項後得到 SARIMA,可以顯式描述周度、月度等週期性結構。
在工程使用中,通常會先做平穩性檢驗(如 ADF)、觀察 ACF/PACF 圖,再通過信息準則(AIC/BIC)和殘差診斷選取合理的階數。對於具有明顯季節性的指標(如電商日銷量、節假日流量)尤其適合 SARIMA 建模,配合假日特徵或外生變量可以進一步改善預測性能。
當我們希望一次性建模多條相關時間序列時,可以引入 多變量時間序列模型 。代表方法是 VAR(向量自迴歸)與其變體。VAR 將多個序列視為一個聯合向量,用自身及彼此的滯後項共同解釋當前值,從而捕捉不同指標之間的相互影響。例如,在宏觀經濟分析中,可以將 GDP 增速、通脹率、利率、匯率等納入同一個 VAR 模型,研究衝擊響應和傳導路徑;在業務運營中,也可以用 VAR 描述“一個渠道的流量變化如何影響其他渠道”“促銷強度與銷量之間的動態關係”,為資源調配提供參考。
在產品化形態上,這一類單/多變量預測能力通常嵌入在傳統 BI / 報表系統的預測功能、財務與供應鏈規劃工具中:用戶選定某條或若干條時間序列,系統自動完成建模與預測,並提供預測區間、殘差分析和模型診斷報告,用於輔助決策,而不必深入理解決策背後的所有數學細節。
6.1.2 協整與因果關係:宏觀指標之間的長期均衡
在經濟與金融領域,很多時間序列表面看似隨機遊走,但在更長的時間尺度上存在某種 穩定的長期均衡關係 。典型例子包括匯率與利差、股指與宏觀盈利、商品價格與成本指數等。單獨看每條序列,可能都是非平穩的;但某種線性組合卻在長期內圍繞一個穩定水平波動。這種現象被稱為 協整(cointegration) ,它為我們理解宏觀指標之間的結構性關係提供了重要線索。
在工程實踐中,協整分析通常包括幾個步驟:
- 對各個時間序列進行單位根檢驗,確認其為同階單整(例如都為 I(1));
- 進行協整檢驗(如 Engle-Granger 兩步法、Johansen 檢驗等),判斷是否存在非平凡的線性組合使得該組合平穩;
- 若發現協整關係,可以構建誤差修正模型(ECM),刻畫“短期偏離長期均衡時,系統如何逐步修正回到平衡狀態”。
與協整相關的,是 Granger 因果關係檢驗 。它並不是嚴格意義上的哲學“因果”,而是一種基於預測能力的統計定義:如果變量 X 的歷史信息可以顯著提高對變量 Y 的預測精度,則稱“X Granger 導致 Y”。通過在 VAR 或迴歸框架下比較有/無某個變量滯後項時的預測誤差,可以評估不同宏觀或市場指標之間的方向性影響。在量化研究和宏觀分析中,這種檢驗常用於甄別潛在的領先指標、構建因子、或者驗證策略假說。
從產品視角看,協整與因果分析更多出現在量化研究分析軟件、宏觀經濟分析平臺和金融研究工具中。它們幫助研究者從成堆的時間序列中抽取出相對穩健的結構關係,並將這些關係映射到更高層次的業務概念(如“利率對匯率的長期約束”“不同資產之間的價差迴歸”),成為策略設計與風險管理的重要依據。
6.1.3 狀態空間模型與隱狀態估計:卡爾曼濾波與 HMM
在許多真實系統中,我們觀測到的時間序列只是 噪聲汙染後的表象 ,而真正感興趣的是背後隨時間演化的“系統狀態”:例如車輛的真實位置和速度、設備的健康狀態、用戶的潛在行為模式等。此時,如果仍然只在觀測序列上做 ARIMA 式建模,就很難充分利用對系統結構的理解。狀態空間模型(State Space Models)正是為這種“隱狀態 + 噪聲觀測”的問題而提出。
狀態空間模型通常由兩部分構成:
- 狀態轉移方程:描述隱藏狀態如何隨時間演化,可以是線性的也可以是非線性的;
- 觀測方程:描述隱藏狀態如何生成帶噪聲的觀測值。
在線性高斯假設下,這個框架可以通過卡爾曼濾波(Kalman Filter)和平滑器(Smoother) 實現對狀態的遞推估計與預測:每一步分為“預測”和“更新”兩大階段,將上一時刻的狀態分佈與當前觀測結合,得到新的狀態估計。這在導航與定位(如軌跡估計、目標跟蹤)、金融時間序列(如波動率估計)、設備狀態估計(如健康監控、剩餘壽命預測)中極其常見。
與連續狀態空間模型相鄰的,是 隱馬爾可夫模型(HMM) 。HMM 假設系統在若干個離散的隱狀態之間隨時間轉移,每個隱狀態下生成觀測數據的概率分佈不同。通過前向–後向算法和 Viterbi 算法,HMM 可以估計隱狀態序列、計算觀察序列概率,並對下一步狀態與觀測做預測。HMM 早期廣泛用於語音識別、文本標註,也常用於簡單的行為模式識別與事件序列建模,在某些工業與金融場景中仍有其優勢——結構可解釋、訓練穩定、與領域經驗易於結合。
在系統層面,狀態空間建模、卡爾曼濾波和 HMM 常作為軌跡估計、設備狀態估計、金融與工程控制系統的底層模塊,被封裝在更大的工具鏈中。它們不一定直接暴露給終端用戶,但在導航、目標跟蹤、工業控制、風險計量等產品背後,長期扮演著“隱形引擎”的角色。
6.2 深度學習時間序列建模(Deep TS Forecasting)
隨著數據規模和場景複雜度的持續上升,單純依賴線性、平穩性假設的經典模型在很多應用中開始顯得“力不從心”:大量非線性模式、長跨度依賴、複雜的多變量交互、突發行為與週期疊加等特點,使得我們需要更靈活、更高容量的模型結構。深度學習時間序列建模正是在這一背景下發展起來的:從 RNN/LSTM/GRU,到 Temporal CNN/TCN,再到時序專用 Transformer、混合與分層模型,它們共同構成了現代時序預測與建模的主力工具箱。
從應用視角來看,深度時序模型已經廣泛部署在電商流量 & 銷量預測平臺、供需/運力/排班預測系統、雲資源負載預測與容量規劃工具中,用於在多品類、多門店、多城市、甚至多業務線的複雜結構下,給出統一而靈活的預測方案。與經典模型相比,它們更強調“端到端表示學習”和“全局模式建模”,更擅長處理長序列、高維、多變量場景。下面,我們同樣從 場景 、原理和模型三個維度展開。
- 場景
- 大規模多序列預測:成千上萬條商品、門店、城市維度的銷量/流量序列,需要在一個統一模型下同時建模,並支持冷啟動與長尾序列。
- 複雜運營與調度:供電/供水/運力/排班等系統中,需求受多維特徵影響(天氣、節假日、價格、活動),且存在多層級結構(門店/城市/全國),需要同時兼顧全局模式與局部差異。
- 雲資源與基礎設施:大規模服務器集群、容器平臺、網絡與存儲負載,呈現高度非線性和多峰結構,需要高頻預測與容量規劃支撐 SLO。
- 原理 深度時序模型的核心在於 自動從歷史序列與協變量中學習多尺度模式與長期依賴 :
- RNN/LSTM/GRU 通過循環結構顯式地在時間維度上傳遞“記憶”,適合捕獲順序依賴與局部時間結構。
- Temporal CNN / TCN 使用一維卷積和膨脹卷積,在保證因果性的前提下擴大感受野,實現並行訓練與穩定梯度傳播。
- 時序 Transformer 與專門設計的變體(Informer、Autoformer、TimesNet 等)利用自注意力機制,在長序列、多變量設置下建模複雜依賴和週期性模式。
- 混合與分層模型進一步引入“全局 + 局部”“多層級時間序列”的結構假設,在統一框架中同時學習全局模式與個體特徵。
- 模型 在具體實現上,深度時序建模湧現出一系列具有代表性的架構:
- 經典深度序列模型:RNN/LSTM/GRU 以及基於它們的 DeepAR 等自迴歸概率預測模型。
- 分解與預測一體化模型:N‑BEATS 等通過顯式趨勢/季節分解模塊增強可解釋性。
- 基於注意力的時序模型:Temporal Fusion Transformer(TFT)等結合注意力、門控、變量選擇,適用於多變量、有豐富協變量的業務場景。
- 長序列 Transformer 模型:Informer、Autoformer、TimesNet、PatchTST 等,圍繞長序列效率與多尺度建模做出專門設計。
下面,我們從深度序列模型、卷積與 Transformer、以及混合與分層建模三個方向展開。
6.2.1 深度 RNN/LSTM/GRU:從單序列到 DeepAR
在深度學習進入時間序列領域初期,RNN/LSTM/GRU 是最自然的選擇。與文本和語音建模類似,它們通過在時間步之間傳遞隱狀態來“記憶”歷史信息,允許捕捉比傳統線性模型更復雜的非線性和長期依賴。對於單條或少量時間序列,簡單的 LSTM/GRU 在有足夠數據時就可以取得不錯的預測效果;而在大規模多序列場景中,則可以採用 共享參數的 RNN/LSTM/GRU 模型 ,在所有序列上進行聯合訓練,從而學習到通用的時序模式。
在此基礎上,類似 DeepAR 的自迴歸概率模型為深度時序建模提供了一個標準框架:它將歷史觀測和協變量輸入一個共享的 RNN/LSTM/GRU 網絡,在每個時間步上輸出序列值的條件分佈參數(如高斯、負二項分佈等),並通過最大似然訓練實現端到端的概率預測。這樣的設計使模型能夠自然生成預測區間、處理不規則的尺度和多序列混合,有利於在電商銷量、需求預測等場景中落地。
然而,RNN 類模型存在典型問題:長序列上的梯度衰減,以及在訓練階段無法完全並行化。雖然門控機制(LSTM/GRU)緩解了部分問題,但在特別長的時間跨度和高頻數據下,訓練與推理效率仍然是需要權衡的因素。這也促使業界和學術界探索更加並行友好的結構,如 TCN 和 Transformer。
6.2.2 Temporal CNN 與 Transformer:從局部卷積到長序列注意力
為了解決 RNN 在長序列上的效率和穩定性問題,Temporal CNN / TCN 引入了一維卷積和膨脹卷積來建模時間依賴:通過堆疊多層因果卷積、逐層擴大感受野,它在不破壞時間因果性的前提下,實現了對遠距離歷史的建模。相比 RNN,TCN 在訓練時可以高度並行,梯度傳播路徑更短,因此在訓練穩定性和效率上表現突出,適合用在高頻數據、需要較大感受野的工業時序預測場景中。
在更高的複雜度層級上,Transformer 與時序專用結構成為近年來長序列、多變量時間序列建模的主角。直接使用標準 Transformer 會遇到計算複雜度隨序列長度平方級增長的問題,因此湧現出一系列面向時序的改造方案:
- Informer 通過概率稀疏自注意力等機制,降低長序列上的計算負擔,並針對預測任務優化結構。
- Autoformer 將趨勢與季節性分解融入自注意力框架,試圖在保持長序列建模能力的同時提升可解釋性和穩定性。
- TimesNet 通過在時間–頻率域或多尺度展開中增強對週期與模式的感知,更好地處理複雜、多週期的長序列。
- PatchTST 借鑑 Vision Transformer 的“patch”思想,將連續子序列視作補丁,提高長序列時的建模效率與泛化能力。
這類模型往往特別適合長序列、多變量、高維協變量的複雜時序場景,如大規模雲資源負載、多區域能源需求、多渠道流量預測等。它們可以在一個統一架構中同時建模多維輸入、靜態特徵和時間相關變量,並通過注意力權重為後續解釋與診斷提供一定線索。
6.2.3 混合與分層模型:全局 + 局部、多層級時間序列
在實際業務中,時間序列很少是“孤立”的:它們往往具有明顯的 層級結構與共享模式 ——例如門店/城市/區域/全國的銷售層級,SKU/品類/品牌的商品層級,或業務線/產品/渠道的組織結構。如果簡單地為每條序列單獨建模,很難利用到這一層次結構;而直接把所有序列混在一起,又會忽略各自的個性化差異。混合與分層模型正是為解決這類問題而設計。
一類常見思路是 全局 + 局部模型 :通過一個共享的“全局模型”學習所有序列的共性模式(如總體趨勢、節假日效應、季節性),同時為每條序列或每個子群體引入局部參數或嵌入向量,捕捉個體特性。這種結構既避免了為長尾序列單獨訓練模型導致的數據稀疏問題,又保留了在熱門序列上進行精細建模的能力。
另一類是 多層級時間序列(hierarchical TS)建模 :在預測過程中顯式考慮層級約束(如子層級之和需要與上層級預測一致),通過自頂向下、自底向上或中間層級的聯合優化,使各層級預測在數值和結構上保持一致。在深度時序框架下,這通常表現為在輸入編碼中加入層級特徵、為不同層級設計多頭輸出,或使用分層損失函數進行訓練。
從產品視角看,這類混合與分層建模廣泛應用於電商銷量預測平臺、供需/運力/排班預測系統等場景:系統需要同時給出“單店單品”“城市級別”“全國總量”等不同粒度的預測,並在資源規劃和 KPI 拆解過程中保持上下層的一致性。深度模型的靈活結構,使得這類約束可以通過端到端方式嵌入建模過程,而不必完全依賴事後修正。
6.3 異常檢測與變點檢測(Anomaly & Change Point Detection)
在時間序列場景中,“預測未來”只是問題的一部分,另一部分同樣關鍵的是: 實時發現異常與結構變化 。無論是設備運行、業務指標、交易行為,還是運維監控,異常檢測與變點檢測都是保障系統穩定、識別風險機會的核心能力。傳統上,統計閾值法、EWMA、CUSUM 等方法廣泛使用;隨著數據維度和複雜度提升,各類機器學習與深度學習方法(孤立森林、One‑Class SVM、AutoEncoder/VAE、時序 GAN、GNN + 時序模型)也開始扮演重要角色。
從產品形態來看,這類能力往往內嵌在設備故障預警系統、業務指標異常報警平臺(如轉化率突降)、安全攻擊與欺詐檢測系統、運維 AIOps 告警引擎中,通過實時監控多維時序信號,自動標記可疑點和結構變更,並與規則、知識庫和人工決策流程結合。下面繼續從 場景 、原理和模型三個角度展開。
- 場景
- 設備與工業系統:監控溫度、振動、電流、壓力等傳感器數據,提前發現故障與退化趨勢,減少停機和損失。
- 業務與運營指標:監控 PV/UV、轉化率、訂單量、延遲、錯誤率等關鍵指標,快速發現突降、突升、異常波動,為運營和技術團隊提供告警。
- 安全與風控:分析登錄行為、交易序列、訪問模式等時間序列,識別潛在攻擊、作弊和欺詐行為。
- 原理 異常與變點檢測本質上是在“正常模式”上尋找顯著偏離和結構突變:
- 對於點異常和序列異常,可以通過統計分佈擬合、密度估計或邊界學習,判斷當前觀測是否落在“正常區域”之外。
- 對於變點,則關注時間序列統計特性(均值、方差、相關結構、分佈等)在時間軸上的突變,並嘗試定位變化發生的時間位置。
- 在高維和多點網絡中,需要將多條時間序列之間的依賴結構(如拓撲、相關性)納入建模,避免將局部異常與整體趨勢混淆。
- 模型 從方法族來看,可以大致分為統計方法、單類/孤立學習方法、重構式深度模型和圖 + 時序組合模型:
- 統計異常檢測:閾值、EWMA、CUSUM 等,對單變量或簡單場景極其高效,是傳統監控系統的基礎。
- 機器學習方法:Isolation Forest、One‑Class SVM 等,用於在多維特徵空間中刻畫“正常區域”,對異常樣本進行孤立。
- 深度重構模型:AutoEncoder / VAE / 時序 GAN,通過學習重構正常序列,在重構誤差較大時標記異常。
- 圖神經網絡 + 時序模型:在傳感器網絡、微服務指標等場景中,引入圖結構和時序模型共同學習正常模式,強化對拓撲相關異常的識別。
下面,我們圍繞點/序列異常、變點檢測、多維與圖結構三個方向展開。
6.3.1 點異常與序列異常:從統計閾值到重構式模型
最直觀的異常檢測形式是 點異常 :某個時間點的觀測值遠離歷史正常範圍(如 CPU 使用率突然飆到 100%、交易金額異常增大、傳感器讀數瞬間跳變)。傳統方法中,最常見的做法是對歷史正常數據擬合一個統計分佈或滑動統計量(均值、方差、分位數),在此基礎上設定閾值或控制圖(如 EWMA、CUSUM),噹噹前觀測超出可接受區間時發出告警。優點是實現簡單、計算代價低、易於解釋,因此在大量運維監控和工業系統中仍然廣泛使用。
當維度提升或模式變得更復雜時,可以引入孤立森林(Isolation Forest)、One‑Class SVM 等單類/孤立學習方法:它們通過在“正常樣本”上學習一個聚合區域(或邊界),將落在該區域之外的點視為異常。通過在序列的滑動窗口上提取統計特徵(如窗口均值、方差、頻域特徵等),這類方法也可以用於識別局部“序列異常”(即一段時間內行為偏離正常模式),適用於多維指標和難以精確定義分佈形態的場景。
在深度學習框架下,基於重構誤差的 AutoEncoder / VAE / 時序 GAN 等方法則提供了更靈活的選擇:
- 使用 AutoEncoder 或 VAE 在大量正常序列上訓練“壓縮–重建”模型,使其學會重構正常模式;
- 在在線監控時,將新的時間窗口輸入模型,如果重構誤差顯著增大,則認為該區間存在異常;
- 時序 GAN 類方法則通過學習生成正常序列,在判別器的判定結果或生成誤差中尋找異常信號。
這些方法可以適應高度非線性的模式和複雜的協變量結構,特別適合在多維業務指標、複雜設備傳感器數據上構建統一異常檢測引擎。
6.3.2 變點檢測:結構突變與事件生效
與點異常和局部異常不同,變點檢測(Change Point Detection)關注的是時間序列在結構上的突變:例如均值從一個水平躍遷到另一個水平、波動率發生改變、週期和相關結構出現調整。這類變化往往對應現實世界中的某種事件或狀態切換,如配置變更、生效新策略、政策調整、生產工藝改變、市場 regime 切換等,對業務診斷和因果分析極為關鍵。
傳統統計方法中,變點檢測常藉助似然比檢驗、CUSUM、Bayesian Online Change Point Detection(BOCPD)等技術:
- 通過在不同時間點前後擬合不同參數的模型(如不同均值/方差),比較“無變點假設”和“有變點假設”的擬合優度;
- 在在線場景中,對每個時間點遞推更新“當前段落為止是否出現變點”的後驗概率,一旦超過設定閾值則觸發告警。
在更復雜的設置下,可以結合深度表示學習與分段模型,將變點檢測視作 序列分段問題 :用神經網絡提取特徵,再在特徵空間中尋找段落邊界,或者直接訓練模型預測某一時間點屬於“變點”的概率。這對於存在多種形態變化(不僅是均值/方差變化)、且難以用簡單統計假設刻畫的業務指標尤其有用。
在產品體系中,變點檢測通常被集成在業務指標分析平臺、A/B 實驗分析系統、配置與策略變更監控工具中:當關鍵指標呈現結構性變化時,系統可以自動標記潛在變點,並關聯相應的變更事件(如版本發佈、參數調整、政策落地),為後續根因分析提供線索。
6.3.3 多維時序與圖結構:GNN + 時序模型的聯合建模
在現代分佈式系統和物聯網場景中,我們往往面對的是 多點、多維、具有關聯拓撲結構的時間序列 :例如傳感器網絡中的多個測點、微服務架構中的各個服務指標、配電網/交通網中的多個節點和邊。此時,單獨、逐條地對每個時間序列做異常檢測,很容易誤判局部波動或忽略整體模式——真正的異常往往是“局部–整體不一致”或“拓撲結構中不協調”的表現。
為此,近年來出現了大量圖神經網絡(GNN) + 時序模型的組合方法:
- 首先根據現實拓撲(物理連接、網絡拓撲)或基於數據估計出的相關圖,構建一個表示多點之間關係的圖結構;
- 在每個時間步上,用 GNN 對節點特徵(各點的時序值及其局部上下文)進行消息傳遞,學習空間關聯特徵;
- 再將圖編碼後的表示輸入 RNN、TCN 或 Transformer 等時序模型,捕捉時間維度上的動態模式;
- 最終在聯合表示上進行異常評分或變點檢測,實現 時空聯合的異常識別 。
這種框架在傳感器網絡監控、微服務指標異常檢測、城市計算中的時空異常檢測等場景中尤其適用:它能夠分辨“全局性變化”(如整個系統負載上升)與“局部異常”(如某個節點異常擁塞),也能更好地識別拓撲結構相關的異常模式(如鏈路級問題、區域性網絡故障)。
在工程層面,這類方法通常作為運維 AIOps 告警系統、安全與風控平臺、設備群監控系統的高階能力出現,結合基礎統計監控、規則系統和專家知識,為複雜系統提供更智能、更上下文感知的異常發現機制。
6.4 時空序列(Spatio-Temporal Modeling)
在很多關鍵業務場景裡,僅僅建模“時間”是不夠的: “什麼時候”與“在哪裡”並行存在 ,而且二者高度耦合。城市交通流量受路網結構和時間規律共同影響,氣象與空氣質量既依賴時間演化,也依賴地理鄰近與大氣流場;物流、共享單車與網約車調度則需要同時考慮需求的時空分佈和道路/區域結構。時空序列建模(Spatio‑Temporal Modeling) 正是針對這類“時間 + 空間”聯合建模問題的系統方法。
與純時間序列模型相比,時空模型需要顯式把空間依賴結構納入考慮:相鄰路段的交通流量、鄰近監測站的空氣質量、相連節點的負載與狀態,通常比相隔較遠的點更具相關性。為此,圖神經網絡(GNN)、卷積 LSTM(ConvLSTM)等結構被廣泛用於結合空間與時間兩個維度的特徵學習。對應到產品層面,這類能力支撐著城市計算平臺(交通/人流預測)、氣象/環境預測系統、物流路徑規劃與共享單車/網約車調度平臺等大量關鍵應用。
- 場景
- 交通流量與人流預測:在路網或地鐵網結構上,對不同時段的車流、人流進行預測,輔助信號燈優化、擁堵管理和調度決策。
- 氣象與環境監測:在地理網格或監測站網絡上,預測未來的溫度、降雨、風力、空氣質量等時空分佈,為預報和決策提供支撐。
- 物流與出行調度:在城市區域或路網結構上預測訂單需求、車輛分佈、倉庫/站點的負載情況,為路徑規劃、車輛調度和運力分配提供依據。
- 原理 時空序列建模的核心是 在統一框架中同時學習空間相關性與時間動態 :
- 在空間維度上,通過圖結構或卷積結構刻畫“誰與誰相關”,並基於此進行消息傳遞與特徵聚合;
- 在時間維度上,利用 RNN、TCN、Transformer 或特化的時序結構刻畫動態變化;
- 兩者可以串聯(先做空間,再做時間),也可以交織或同時作用(如時空卷積、時空注意力)。
- 模型 典型時空模型大多采用“GNN + 時序模型”或“卷積 + LSTM”的組合形態:
- 圖神經網絡 + 時序模型:ST‑GCN、DCRNN、Graph WaveNet、ST‑Transformer 等,通過圖卷積或圖注意力捕捉空間依賴,再用時序結構捕捉時間動態。
- 卷積 LSTM 類模型:ConvLSTM、Conv‑TT‑LSTM 等,在時序遞推中嵌入空間卷積門控,實現對時空局部特徵的聯合建模。
下面,我們從時空任務與數據表示、GNN + 時序模型、卷積 LSTM 與時空卷積三個方向展開。
6.5.1 時空任務與數據表示:從路網到地理網格
在進入具體模型之前,時空序列建模首先要解決的是 如何表示空間結構 。與一維時間軸不同,空間結構可以是規則網格(grid)、不規則圖(graph)、或者混合形式。
- 在交通場景中,道路與交叉口天然構成一個有向或無向圖:節點表示路段或路口,邊表示道路連接與行駛方向;每個節點在每個時間步上有一組特徵,如車流量、平均速度、擁堵指數等。
- 在氣象與空氣質量預測中,可以使用規則地理網格(如經緯度網格),或將監測站點之間的鄰接關係構建為圖結構,基於地理距離、風向或相關性定義邊權。
- 在物流與共享出行場景中,可以將城市劃分為網格或區域單元,每個單元在時間上具有訂單量、活躍車輛數等特徵,同時在空間上通過鄰接關係或實際道路距離相連。
這種“ 空間結構 + 時間序列 ”的統一表示,使得很多不同場景可以被建模為類似的問題:給定歷史時空序列,預測未來若干時間步上每個節點或網格的狀態。後續模型設計(無論是 GNN + 時序模型,還是 ConvLSTM)都是在這一統一視角上展開。
在產品層面,這一層的抽象往往封裝在城市計算平臺、氣象/環境預測系統、路徑規劃與調度平臺的數據層與建模層:業務方只需要知道“我們在路網/網格上預測未來流量/需求如何”,而底層的數據表達與時空融合由建模框架統一處理。
6.5.2 圖神經網絡 + 時序模型:ST‑GCN、DCRNN、Graph WaveNet 等
在圖結構上建模時空序列,目前最主流的路線是“ 圖神經網絡(GNN) + 時序模型 ”的組合。代表模型包括 ST‑GCN、DCRNN、Graph WaveNet、ST‑Transformer 等,它們的共同特點是:
- 在空間維度上使用圖卷積(GCN)、圖注意力(GAT)或譜域卷積等方法,對每個時間步的節點特徵進行“鄰域聚合”,從而捕捉空間依賴與拓撲結構的影響;
- 在時間維度上,通過 RNN(如 GRU/LSTM)、TCN、或 Transformer 對節點級特徵進行序列建模,捕捉時間趨勢和週期性;
- 通過交替堆疊或聯合設計,使得模型能夠在多個時空尺度上學習局部與全局模式。
例如,DCRNN(Diffusion Convolutional RNN) 將圖卷積與門控循環單元結合起來,使用擴散卷積來模擬信息在路網上的傳播,再通過 RNN 捕捉時間維度的動態,非常適合交通流量預測等任務。Graph WaveNet 則在圖卷積和時間卷積的基礎上,引入自適應圖結構學習和多尺度建模,提高對複雜路網和非規則拓撲的適應性。ST‑Transformer 等模型則把自注意力機制引入時空建模,通過時空注意力模塊同時考慮不同時間和空間位置之間的相關性。
在實際系統中,這一類 GNN + 時序模型廣泛部署在城市交通與人流預測平臺、共享出行調度系統、複雜 IoT 網絡監控等產品中。它們通常作為核心預測引擎之一,與規則系統、仿真模型和業務策略共同組成閉環,使得調度與規劃既能考慮全局結構,又能響應局部變化。
6.5.3 卷積 LSTM 與時空卷積:ConvLSTM、Conv‑TT‑LSTM 等
另一條重要路線是基於卷積 LSTM(ConvLSTM)及其變體的時空建模。與標準 LSTM 在時間步之間傳遞一維向量不同,ConvLSTM 在門控結構中使用卷積算子,使得隱藏狀態和輸入都保持為多維張量(如空間網格上的特徵圖)。這樣,在每個時間步的狀態更新中,既包含了時間上的遞推,也在空間維度上進行了局部卷積聚合,實現了對時空局部模式的自然建模。
在此基礎上,Conv‑TT‑LSTM 等改進模型嘗試通過張量分解、參數分享、多尺度卷積等機制,提升模型的表達能力和效率,適應更大規模、更復雜的時空數據。例如,在氣象預測中,可以使用 ConvLSTM 堆疊多層,對多通道氣象要素圖(溫度、溼度、風向等)進行時空遞推,從歷史若干幀預測未來幾小時或數天的空間分佈;在交通和環境監測中,也可以將路網或監測點映射到規則網格上,使用 ConvLSTM 等模型進行預測。
與 GNN + 時序模型相比,ConvLSTM 系列在規則網格結構、局部空間平滑性明顯的場景中使用較多,如氣象雷達回波預測、空氣質量網格預報、視頻幀級預測等。其優勢在於實現相對直接、易於利用現有卷積網絡基礎設施進行加速和部署,也容易與 CNN/ViT 等視覺模型協同使用,如在遙感影像時空建模中結合卷積特徵和時序遞推。
在產品形態上,這一方向的模型多用於氣象/環境預測系統、遙感時空分析平臺、視頻與影像時空預測等,常常以“未來時空場景預測圖”的形式向上遊暴露能力,成為業務決策與可視化分析的重要輸入。
7. Agent 與工具調用層(Agents & Tool Use)
在前面的視覺、語言等能力層中,模型大多還是“被動回答”的形態——接收輸入、給出輸出。而在很多真實業務裡,我們需要的是一個 可以主動規劃、調用外部工具、串聯工作流的智能體(Agent) :它不僅能看懂/讀懂/聽懂,還能自己“決定下一步做什麼”,比如去查資料、跑代碼、讀寫文件、調用內部系統,然後再把結果整合、解釋並反饋給用戶。
這一層可以被理解為“把基礎模型變成可行動系統”的關鍵粘合層:通過 結構化工具調用接口、工作流編排、多 Agent 協作以及人類在環機制 ,把 LLM 從一個強大的“認知內核”擴展為能夠完成端到端任務的“數字員工”。
7.1 工具調用與執行(Tool Calling / Function Calling)
在只讀不寫、只說不做的純文本時代,LLM 更像一個“超級對話者”:可以理解問題、給出建議、寫代碼、列方案,但所有“真正執行”的工作——查數據庫、跑腳本、生成文件、調雲服務——仍然要人工接手完成。而工具調用 / Function Calling 的出現,讓模型第一次可以在安全邊界內“動手”:根據自然語言自動生成結構化參數,去調用搜索引擎、數據庫、計算引擎、圖像/音頻/視頻生成服務等外部能力,再把執行結果整理返回,從而形成“理解 → 決策 → 執行”的閉環。
從產品角度看,工具調用是絕大多數 Agent 系統的“底盤能力”:OpenAI Assistants API、LangChain、LlamaIndex、AutoGen、各類雲廠商的 Agent 平臺,實質上都是在 LLM 之上,圍繞如何定義工具、如何讓模型正確選工具、如何處理出錯與重試搭建一層運行時。下面同樣從 場景 、原理和模型三個角度梳理這一層能力,並在後續小節中分別展開“工具調用接口設計”“工具選擇與策略”“典型工具類型”三個方向。
- 場景
- 智能問答與檢索增強:模型根據用戶問題自動決定是否調用檢索工具(向量/關鍵詞搜索)、查企業內部知識庫或公網搜索,並將查到的文檔、FAQ 整合進最終回答。
- 數據與報表自動化:面對“幫我查這段時間的銷售額並畫圖”“給我算一下這個投資組合的風險指標”之類請求,模型自動生成 SQL 或分析參數,調用數據庫和計算引擎,返回圖表與結論。
- 文檔與文件操作:自動讀取 PDF/Word/Excel/數據庫表,抽取和彙總關鍵信息,或按指令生成新文件(如報表、合同、方案),並通過工具上傳/存儲到指定位置。
- 媒體生成與處理:根據文本指令調用圖像/音頻/視頻/3D 生成服務,或對現有媒體做剪輯、壓縮、轉碼、水印等操作,形成一鍵“文案 + 設計 + 導出”的內容流水線。
- 原理 工具調用的核心是: 用自然語言驅動結構化函數調用 。
- 首先以 JSON Schema 或函數簽名的形式,將外部工具的名稱、說明、參數結構(類型、必填項、枚舉值等)暴露給 LLM。
- 當用戶發出請求時,LLM 不僅要理解語義,還要判斷“是否需要調用某個工具”“需要哪個(些)工具”“這些工具的參數應該怎麼填”。
- 一旦模型決定調用某個工具,就生成一段結構化參數(通常是 JSON),由運行時去真正執行外部 API / 程序,並把執行結果以結構化形式返回給模型,讓模型基於結果繼續推理或生成最終回答。
- 為保證安全與魯棒性,系統需要在這一過程中處理參數校驗、超時、錯誤返回、重試與回退,並對可能涉及安全/隱私的調用做權限與審計控制。
- 模型 支撐這一能力的模型與框架主要包括三類:
- 支持 Function Calling 的 LLM:如 GPT‑4.1 / o 系列等,原生在解碼層面理解“工具簽名 + JSON Schema”,能夠在合適時機主動或被動地產生結構化調用參數。
- 工具增強推理範式:如 ReAct、Toolformer,將“思考 + 工具調用”編織進同一推理鏈條,將工具使用視作中間步驟的一部分,而不是簡單的前/後處理。
- 工程框架與運行時:OpenAI Assistants API、LangChain、LlamaIndex、AutoGen、各雲廠商 Agent 平臺等,為工具定義、調用路由、狀態管理、錯誤處理與日誌審計提供基礎設施,讓開發者可以聚焦在“暴露哪些工具”和“抽象怎樣的業務 API”上,而不必從零搭建運行時。
7.1.1 工具調用接口:從自然語言到結構化函數調用
一個可用的工具調用系統,首先需要一個清晰、規範、對 LLM 友好的“工具接口層”。它承擔著把外部世界的 API、腳本、服務包裝成模型可理解、可安全調用的“函數”的職責,讓模型可以像寫偽代碼一樣“說出”自己希望調用的工具及其參數。
- 工具定義與參數模式 在接口層,通常會用類似 JSON Schema 或函數簽名的結構定義每個工具:包括名稱(name)、說明(description)、參數字段(properties)、類型(string / number / boolean / array / object)、是否必填(required)、取值範圍或枚舉等。 這些信息一方面被用來驅動前端/SDK 的類型檢查,另一方面也直接提供給 LLM,幫助模型“學會”如何正確填寫參數。描述越清晰、約束越合理,模型生成的調用就越規範,出錯率越低。
- LLM 生成結構化參數 當用戶提出“幫我查 2024 年 Q3 的營收並畫一張按地區拆分的柱狀圖”這類請求時,模型需要先推理出:這至少需要一個“報表查詢工具”(訪問數據)、可能還需要一個“圖表生成工具”(畫圖)。對每個工具,它要從原始語言中抽取並映射結構化參數,如時間範圍(start_date/end_date)、維度(region)、指標(revenue)、圖表類型(bar)、輸出格式等,然後以 JSON 輸出交給運行時。 這個過程中,模型本質上在做“自然語言 → 任務規劃 → 參數抽取 / 填充”的一體化推理,因此工具描述的自然語言提示、參數示例和 few‑shot 樣例都非常關鍵。
- 工具執行與結果回傳 運行時接收到模型產出的 JSON 調用後,會先進行參數校驗與安全檢查,再去真正調用後端 API 或程序。執行完成之後,將結果封裝為結構化對象(如查詢結果表格、文件 URL、媒體資源 ID 等)返回給模型。 隨後,模型會把這些原始結果轉化為用戶可讀的解釋或進一步加工,如總結報表、生成自然語言分析、嵌入圖表標註說明等。對於模型而言,工具結果只是中間信息的一部分,它仍然要負責“理解結果 + 解釋結果”。
7.1.2 工具選擇與策略:在多工具世界裡做決策
當系統中只有一個工具時,“要不要用工具”是唯一的問題。但在現實 Agent 應用中,往往會有幾十甚至上百個工具:不同數據源的檢索、不同部門的業務 API、不同技術域的生成/分析能力,這就引出了一個新的挑戰: 模型如何在多工具環境下做合理的選擇和編排 。
- 工具選擇與路由 首先,模型需要判斷“當前請求是否需要調用工具”,以及“需要調用哪一個(或哪幾個)工具”。這通常通過在系統提示中列出可用工具的說明,並提供典型示例,讓模型學會根據用戶意圖選擇合適工具。 對於工具數量較多、描述相似度較高的場景,很多框架會引入“工具路由器”(如基於向量檢索或規則的前置篩選),先從大列表中篩出若干候選工具,再暴露給 LLM 選擇,從而降低模型負擔和誤選概率。
- 多工具順序與組合 複雜任務往往需要多個工具協同完成。例如“調研某行業主要上市公司,並生成一份包含財務對比圖表的報告”,可能涉及搜索引擎、財報數據庫、計算引擎、圖表生成工具、文檔導出工具等。 在這種情況下,模型需要做一個輕量級的任務規劃:先用哪個工具獲取列表,再對列表逐個查詢詳細信息,之後合併數據、做計算與可視化,最後調用導出工具生成報告。典型實踐包括 ReAct/Planner‑Executor 思路,讓模型在“思考(Plan)—調用(Act)—反思(Reflect)”的循環中,逐步完成工具組合調用。
7.1.3 典型工具類型:從檢索到媒體生成的能力拼圖
不同類型的工具,為 Agent 系統提供了不同維度的“外接大腦”。從工程實踐來看,以下幾類工具幾乎是所有複雜應用的“標配”。
- 檢索工具:向量與關鍵詞搜索 檢索工具負責把“記憶”擴展到外部世界:
- 關鍵詞搜索適合結構化較好、字段清晰的傳統文檔和業務數據庫。
- 向量搜索則通過嵌入(embedding)為非結構化文本、代碼、對話記錄、甚至多模態數據建立語義索引,支持“模糊但語義相關”的檢索。 在 RAG 場景中,LLM 通過檢索工具拉取與用戶問題相關的上下文,再在此基礎上進行推理與生成,大幅提升回答的時效性和準確性。
- 代碼執行與計算引擎 代碼執行類工具(如 Python/JS 沙箱、Notebook 執行器)讓 LLM 可以“寫一段代碼並立即跑起來”,解決複雜計算、數據處理、數值模擬、可視化等問題。 模型負責產出代碼與輸入參數,執行環境負責安全隔離、資源限制與結果收集。這類工具在數據分析、量化研究、自動化報表、科學計算以及 Agent 自我驗證(模型生成答案後用代碼校驗)等場景中非常關鍵。
- 文件與數據源訪問 文件讀寫工具負責將外部文件系統和數據源引入到 Agent 視野中:讀取 PDF/Word/Excel、訪問數據庫表、調用內部業務 API 等。模型通過這些工具獲取真實業務數據,再進行歸納、對比和報告生成。 與之配套的還有文件寫入與管理工具:將生成的報告、圖表、PPT、代碼等持久化存儲,並返回鏈接或 ID,方便用戶後續訪問與集成。
- 媒體生成與處理工具 媒體生成工具則為 Agent 增添了“創作”和“設計”的手臂:
- 圖像/視頻生成與編輯:根據文案自動生成配圖、海報、分鏡,或對已有媒體進行裁剪、上字幕、加水印等。
- 音頻生成與處理:TTS、配音、音樂生成、音頻增強與剪輯。
- 3D / 工程類工具:生成簡單 3D 場景、CAD 草圖、UI 原型等。 在內容生產、營銷設計、教育培訓、遊戲與多媒體應用中,這類工具讓“從想法到成品”更接近一條自動化流水線。
綜合來看,工具調用與執行把 LLM 從“語言模型”擴展為“具備行動接口的通用控制器”:模型通過語言理解需求與環境,通過工具執行真實操作,通過反饋不斷修正策略。搭配合適的工作流編排與多 Agent 協作(見 7.2),就構成了新一代智能應用的基礎架構。
7.2 工作流編排與多 Agent 協作(Workflow & Orchestration)
有了工具調用能力,LLM 不再只是一個“回答問題的人”,而可以成為面向具體任務的“執行單元”。但現實業務往往遠比單次對話複雜:一個完整的訴訟分析、一次市場調研、一輪 A/B 實驗配置、一次端到端運維處理流程,通常都需要多步操作、多種工具、甚至多方角色長期參與。這時,單一 LLM + 工具的模式就顯得吃力,需要進一步的 工作流編排與多 Agent 協作 。
從系統視角看,這一層的職責是: 把一個複雜的、多步驟、多參與方的業務流程,抽象成可被 LLM 理解與操控的工作流圖 ,然後在這個圖上調度一個或多個 Agent,配合人類干預,共同完成任務。典型實現包括 Planner‑Executor 型 Agent 架構、具備反思 / 自我修正能力的 Agent、以及基於圖結構的 Workflow Orchestrator;相應的產品形態則是各類自動報告生成與運營自動化平臺、低代碼工作流 + LLM 集成、複雜業務流程機器人、自動運維繫統等。
- 場景
- 報告與內容流水線:從“接收需求 → 檢索與數據拉取 → 分析和可視化 → 撰寫報告 → 審核修改 → 導出與分發”,將多步內容生產流程自動化或半自動化。
- 業務流程自動化:如電商運營中的“商品分析 → 競品監控 → 活動策略生成 → 落地配置”,運維場景中的“監控告警 → 根因分析 → 緩解措施執行 → 覆盤報告”等。
- 跨角色協作:讓不同領域 Agent(法律、財務、技術、運營)圍繞一個複雜項目協同工作,例如併購盡調、投融資材料準備、大型項目標書編制。
- 原理 工作流與多 Agent 協作的核心,是在 LLM 之上再加一層 結構化控制與狀態管理 :
- 將複雜任務拆分為若干有依賴關係的子任務,用 DAG / 狀態機 / 有向圖等結構表示,併為每個節點配置觸發條件、輸入輸出和所需 Agent/工具。
- 由 Planner 型 Agent 或上層 orchestrator 決定何時觸發哪個節點、用哪個 Agent 或工具,並根據執行結果動態調整後續路徑(條件分支、循環、錯誤回退)。
- 在關鍵環節引入人類在環(Human‑in‑the‑loop),對高風險決策和關鍵輸出進行人工確認與編輯,並將人類反饋迴流到系統,用於更新策略或微調模型。
- 模型 支撐這一層的主要技術方向包括:
- Planner‑Executor 型 Agent 架構:由一個“規劃 Agent”負責任務分解與路徑設計,一個或多個“執行 Agent”負責具體步驟的落地實施。
- 反思 / 自我修正 Agent:在執行過程中不斷回顧自己的表現,對不合理的中間結果進行反思和修正,減少“自信錯誤”的靜默擴散。
- Graph‑based Workflow Orchestrator:將整個任務流程建模為圖結構,引入節點狀態、邊條件、並行/串行控制等機制,使 LLM 調用變成圖中的一個或多個節點,而不是唯一的控制中心。
7.2.1 任務分解與規劃:從“一句話需求”到可執行流程
用戶給 Agent 的通常是一句高度壓縮的自然語言需求,例如“幫我做一個關於新能源車行業的市場調研並輸出 PPT”,背後實際包含了檢索、篩選、分析、可視化、排版、多輪修改等大量步驟。如何從這句話出發,自動構建一條清晰、可執行的工作流,是工作流編排的第一步。
- 從自然語言到子任務圖 Planner 型 Agent 首先需要把需求“展開”:結合內置模板、歷史案例、以及工具清單,識別出關鍵階段(如信息收集、數據分析、結構設計、內容撰寫、審校與導出),並進一步細化為可執行子任務(如“檢索 5 篇近一年權威行業報告”“拉取近 3 年銷量數據並按車型細分”“生成 3 張對比圖表”等)。 這些子任務之間的依賴關係和調度邏輯,會被顯式表示為一張圖或一個狀態機:哪些可以並行、哪些必須順序執行、在哪些節點需要人工確認、在什麼條件下需要回退或重試。
- 條件分支、循環與異常路徑 真實流程往往並不是線性流水線,而是包含 條件分支 (如“如果檢索不到足夠高質量報告則換關鍵詞或換數據源”)、 循環 (如“持續嘗試改寫和壓縮,直到報告長度滿足限制”)和 異常路徑 (如“某個數據源不可達時,切換到備選源或採用估算方法”)。 這要求工作流編排層能夠在圖結構上表達 if/else、while/for、try/catch 等控制流語義,並允許 Planner Agent 或上層 orchestrator 在運行過程中根據實時結果做決策,而不僅僅在開始時一次性規劃好所有步驟。
- 與工具調用的銜接 任務分解與規劃與 7.1 中的工具調用是緊密相連的:Planner 在生成子任務時,往往會同時指定“該任務需要用到哪些工具/Agent”和“該節點的輸入輸出格式”,為後續自動參數填充和工具執行打基礎。 一些系統會採用“Plan + Execute”顯式兩階段:先由 Planner 輸出一個機器可讀的計劃(如 JSON 工作流描述),再由 Executor 嚴格按計劃調用工具與 Agent;也有系統採用 ReAct 風格,將“思考–工具調用–觀察–再思考”編織在同一對話中,以獲得更靈活的自適應執行。
7.2.2 多 Agent 協作:讓“虛擬團隊”各司其職
單個大模型固然強大,但在複雜業務場景中,不同領域往往需要不同的知識結構、風格偏好和安全策略。多 Agent 協作的思路,是把一個“大而全”的智能拆解為多個“專而精”的角色:有人負責規劃,有人負責執行,有人負責審校,有人負責領域專業判斷,形成一個由 Agent + 工具 + 人類共同組成的虛擬團隊。
- 角色分工:規劃、執行與審校 在一個典型的多 Agent 流程中,常見角色包括:
- 規劃 Agent:負責理解用戶需求、設計整體計劃、拆分子任務,並在執行過程中根據結果動態調整路徑。
- 執行 Agent:圍繞某些工具或子領域進行深度優化(如檢索 Agent、數據分析 Agent、內容撰寫 Agent),按規劃要求完成具體步驟。
- 審校 Agent:從結構性、邏輯性、風格一致性和風險控制等角度,對中間和最終產出進行檢查和修訂,類似“虛擬編輯/Reviewer”。
- 領域專家 Agent 協同 對於法律、金融、技術、運營等專業性極強的領域,可以進一步細分出領域專家 Agent:如“法律顧問 Agent”“投研分析 Agent”“雲原生運維 Agent”“廣告投放優化 Agent”等。 它們可以基於領域專用知識庫、工具、甚至專門微調模型,參與項目式協作:例如在一份投融資材料中,由技術 Agent 負責技術可行性部分,財務 Agent 負責財務模型與估值,法律 Agent 負責合規與風險披露,運營 Agent 負責市場與增長策略,再由總控 Agent 彙總和統一風格。
- 協作協議與消息路由 多 Agent 協作的關鍵,還在於“誰在什麼時候跟誰說話”。系統需要一個消息路由與協調機制:
- 決定某條用戶請求或中間結果應當被哪個 Agent 處理。
- 維護共享上下文與各自的私有記憶。
- 控制並行與串行執行,以及衝突解決(如不同 Agent 提出相互矛盾的建議時如何仲裁)。 這類能力通常由上層 orchestrator 或“管理 Agent”提供,而 LangChain、AutoGen 等框架則在工程層面提供了對話路由、多 Agent 會話、角色設定等基礎設施。
7.2.3 人類在環(Human‑in‑the‑loop):把風險關口握在手裡
即便工作流與多 Agent 協作再智能,真實業務中仍然無法完全脫離人類判斷,尤其在高風險、高成本、高敏感度的場景下,如法律合規、金融決策、醫療建議、大規模生產變更、輿情響應等。人類在環(Human‑in‑the‑loop) 的設計,正是要在自動化與可控性之間找到平衡:該自動的自動,該人工確認的一定要停下來讓人看一眼。
- 關鍵步驟人工確認 在工作流圖中,通常會顯式標記若干“人工審批/確認節點”:
- 例如在自動生成合同時,在簽發前需要法務和業務負責人雙重確認;
- 在自動運維繫統中,對涉及生產環境變更、批量重啟、配置修改的操作,必須有值班工程師點擊確認;
- 在內容生成場景中,對大量公開發布或品牌敏感的內容,需要人工審稿。 Orchestrator 會在這些節點暫停自動執行,將中間結果發送給對應人類角色,並在收到反饋後再繼續後續流程。
- 反饋驅動的策略更新 人類不僅在某一時刻“按下通過或駁回”,更重要的是反饋的內容可以被系統吸收:
- 將人工修改後的版本與原始輸出對比,作為“正負樣例”記錄下來,用於後續的提示優化或模型微調。
- 基於統計分析,識別出哪些類型的任務/步驟最容易被人工反覆修改,進而優化對應 Agent 的提示詞、工具組合或工作流設計。
- 在極端或異常案例中,人工可以添加“黑名單 / 白名單 / 特殊規則”,直接影響系統在類似情況中的策略選擇。
- 風險分級與可觀測性 最後,人類在環還需要一套清晰的風險分級和可觀測性機制:
- 根據任務類型、影響面、金額規模、涉及的敏感信息等維度,將流程分為不同風險等級,對應不同強度的人類介入(如只讀審閱、強制審批、多級審批)。
- 通過日誌、審計、可視化看板等方式,讓運營/管理人員能夠隨時追蹤哪些任務在跑、跑到哪一步了、哪些地方觸發了人工介入、歷史上出現過哪些失敗與人工修正。 這些能力不僅提高了系統在企業內的可接受度,也為後續的合規審查和責任劃分提供了基礎。
綜合來看,工具調用與執行(7.1)解決的是“單步行動”的問題,而工作流編排與多 Agent 協作(7.2)則試圖回答“如何把很多步串起來,讓不同角色長期協作並可控運行”。兩者疊加,再加上人類在環與良好的工程實踐,構成了面向真實業務場景的新一代智能應用底座。
8. 檢索增強與知識層(Retrieval & Knowledge)
在前面的視覺與理解層中,模型主要依賴“自身參數裡學到的知識”來理解和生成內容。但在真實業務裡,很多問題並不能只靠“記憶”解決:企業內部制度每天在變、法規和行業標準持續更新、某個客戶的歷史記錄只存在於內部數據庫。這時,僅靠模型“背過”的知識遠遠不夠,更關鍵的是能否在 外部知識庫、結構化數據和圖譜上進行高效檢索與推理 。
可以把這一層理解為:在模型能力之上,再加一層“會查資料、會用數據庫的外腦”。當用戶提出問題時,系統不再直接生成答案,而是先去合適的數據源裡“翻資料”:文檔庫、數據庫、搜索引擎、知識圖譜、日誌與業務系統……然後再讓模型基於真實檢索到的內容來給出回答與決策。這樣不僅能顯著提升準確性和時效性,還能在很大程度上提升可解釋性和合規性(例如可引用出處、保留執行 SQL 記錄等)。
圍繞這一層,常見能力大致可以分為兩個方向:一是 檢索增強生成(RAG) ,主要面向“自然語言問答 + 文檔/知識庫檢索”;二是 結構化數據與知識圖譜(Structured Data & KG) ,負責對數據庫、圖數據庫和領域知識中臺進行更精準、可控的訪問與推理。下面分別展開。
8.1 檢索增強生成(RAG)
RAG(Retrieval‑Augmented Generation)可以看作是“會查資料的 LLM”。與純粹依賴模型內部參數不同,RAG 在回答每一個問題前,都會先去外部知識庫做檢索,把與問題最相關的若干段文檔片段(chunk)找出來,然後再把這些檢索到的內容作為“上下文”餵給 LLM,讓它在“看過資料”的基礎上生成答案。對於企業知識庫問答、行業報告搜索、法律/醫療/金融專業問答、內部文檔搜索機器人等場景,RAG 已經成為默認範式。
在系統架構上,典型 RAG 可以拆解為三層: 索引構建層、檢索層、生成層 。前兩層主要是“查得準”,後一層則負責“說得清”。下面從這三層來展開,並在二級小節中進一步細化核心設計與實踐。
- 場景
- 企業內部知識問答:員工用自然語言提問制度流程、技術文檔、項目資料,系統基於內部文檔與 Wiki 檢索相關內容後,由 LLM 生成清晰回答並附帶引用。
- 行業報告與研究搜索:在大量 PDF、報告和論文中檢索某個行業問題的相關內容(如“新能源車補貼政策變化”),並自動總結、對比和列出處。
- 法律 / 醫療 / 金融領域問答:基於法規條文、判決文書、臨床指南、產品說明書等權威材料進行檢索增強,降低“胡編亂造”的風險。
- 內部文檔 / 工單搜索機器人:幫助運營、客服、研發快速在知識庫、工單和變更記錄中定位答案,並以自然語言總結結果。
- 原理 RAG 的核心思想是把“知識存貯在外部,推理交給模型”:
- 將非結構化文檔(PDF、網頁、Word、技術文檔等)拆成適合檢索的文檔塊(chunk),用 Embedding 模型將其映射到向量空間,並構建向量索引(如 FAISS、Milvus、PGVector 等)。
- 在用戶查詢時,同時利用語義向量檢索與關鍵詞檢索(Hybrid Search),找到與問題最相關的若干文檔塊,並根據相關性和覆蓋度做重排序(Re‑ranking)。
- 將檢索到的上下文、用戶提問、以及必要的系統指令/格式約束一起輸入 LLM,由模型在“可見證據”的約束下進行回答,並在輸出中引用出處(source citation),以提升可解釋性和可審計性。
- 模型 典型 RAG 系統往往是一個 模型組合架構 :
- Embedding 模型:用於將查詢和文檔塊編碼到同一個語義空間,是向量檢索效果的關鍵(包括通用 Embedding 和領域定製 Embedding)。
- 檢索與重排模型:Hybrid Search(如 BM25 + Vector)負責第一輪召回,Cross‑Encoder Re‑ranker 或 LLM 本身用於對召回結果做更精細的重排序。
- 生成模型:LLM 在給定檢索上下文的前提下進行回答;在更復雜的 RAG / HyDE / ReAct + RAG 中,LLM 還會參與“偽文檔生成”“多輪工具調用”“思考 + 檢索交替”等過程,以提高召回、減少遺忘和增強推理能力。
8.1.1 索引構建與知識資產整理
在任何 RAG 系統中,索引構建都是基礎。沒有高質量的索引,後續再強大的 LLM 也只是“巧婦難為無米之炊”。索引構建的目標,是把雜亂無章的文檔資源轉化為“可檢索、可維護、可擴展的知識資產”。
從流程上看,典型索引構建包括以下幾個關鍵步驟:
- 文檔分塊與預處理 文檔往往是長篇 PDF、PPT、Word 或網頁,如果直接對整篇文檔做向量化,既容易造成“稀釋”(一篇文檔包含多個主題),也不利於高效檢索。因此需要:
- 按段落、標題、頁碼、章節結構進行分塊,平衡“語義完整度”和“塊大小”;
- 處理格式問題(表格、公式、圖片中的文字 OCR)、去噪(頁眉頁腳、目錄、版權信息等);
- 為每個塊生成“上下文標籤”(如所屬文檔、章節標題、頁碼),為後續解釋與引用做好準備。
- Embedding 與向量索引 在分塊基礎上,對每個文檔塊生成語義向量:
- 選擇合適的 Embedding 模型(如通用語義 Embedding、領域微調模型),確保對目標語言和領域術語有良好表達能力;
- 使用 FAISS、Milvus、PGVector 等構建高維向量索引,支持大規模數據下的近似最近鄰檢索;
- 處理多版本與增量更新:當文檔更新時,需要支持增量重建索引、版本記錄和舊版本清理策略。
- 元信息索引與過濾 單純的語義向量並不足以應對複雜過濾需求,通常還需要構建 元信息索引 :
- 為每個文檔塊補充時間、作者、來源、文檔類型、業務線、敏感級別等元數據;
- 支持在檢索時基於元信息進行預過濾(如時間範圍、部門、權限等級),減少無關結果;
- 為權限控制與審計打下基礎,避免 RAG 在回答中洩露用戶無權訪問的內容。
8.1.2 檢索與重排序:從“召回相關”到“找到最合適的證據”
在索引構建完成後,當用戶發起查詢,就進入檢索與重排序階段。這裡的關鍵不只是“找一些相關文檔”,而是要儘可能找到 既相關又覆蓋充分、且支持推理的證據組合 。
- Hybrid 檢索:向量 + 關鍵詞的互補 純向量檢索擅長捕捉語義相似度,但對於精確術語、代號、表格字段等,關鍵詞檢索(如 BM25)往往更穩健。因此工程實踐中普遍採用 Hybrid Search:
- 首先對查詢分別進行向量檢索和關鍵詞檢索,得到兩組候選文檔塊;
- 使用加權打分或學習到的融合策略,將兩路候選合併;
- 在一些場景中,可根據查詢類型(FAQ 問答 vs. 法條定位)動態調節向量與關鍵詞檢索的權重。
- 重排序(Re‑ranking):更精細地挑選“證據集” 初始檢索結果往往包含不少“邊緣相關”或“冗餘”文檔塊,需要重排序來提升最終 Top‑K 的質量:
- 使用 Cross‑Encoder(交叉編碼器)對“查詢–文檔塊”對進行雙向編碼和相關性打分,相比雙塔 Embedding 模型精度更高,但開銷較大,適合作為二階段重排;
- 在性能允許時,引入 LLM 進行輕量級重排,讓模型基於更豐富的語義和上下文信息來判斷哪些塊真正“有用”;
- 同時考慮覆蓋度與多樣性,避免所有檢索塊都集中在同一文檔或同一段落,從而導致回答視野過窄。
- 檢索–生成閉環優化 更高級的實踐中,檢索和生成不再是單向流程,而是形成閉環:
- 利用 LLM 對檢索結果的“使用情況”進行分析(哪些塊被引用、哪些塊總是被忽略),反向指導索引和分塊策略的優化;
- 利用對話日誌中的“追問/糾錯”信號,對召回失敗、誤召回的樣本進行標註和再訓練,提高系統對模糊查詢、長尾問題的魯棒性。
8.1.3 生成與引用:在“證據約束下”回答問題
最後一環是生成層,它直接決定了用戶體驗。這裡的目標不是讓模型“隨心所欲”地發揮,而是讓它在 檢索證據的約束下,給出清晰、有邊界、有引用的回答 。
- 基於檢索上下文的受控生成 在 RAG 架構中,LLM 接收到的不只是用戶問題,還包括多段檢索到的文檔塊以及系統指令。系統通常會:
- 通過 Prompt 約束模型“只根據給定文檔回答”“如果文檔中找不到答案就明確說明缺失”;
- 對檢索上下文進行結構化組織(分段、編號、標註來源),方便模型理解與引用;
- 控制輸出格式(列表、表格、分點說明等),適配下游系統或前端展示。
- 引用與可解釋性(Source Citation) 為了便於審計與追溯,尤其在法律、醫療、金融、企業內部制度等高風險領域,回答中往往需要附帶明確引用:
- 在輸出中標註引用來源,如“[文檔 A,第 3 章,第 2 節]”“[法規 X 第 12 條]”;
- 在前端界面中支持一鍵跳轉到原文位置,便於用戶核查和進一步閱讀;
- 在後臺保存“問題–檢索結果–引用塊–最終回答”的完整鏈路日誌,為後續風控和模型改進提供數據。
- 先進 RAG 變體:HyDE / ReAct + RAG 等 為進一步提升難題場景下的效果,實踐中還會使用更復雜的 RAG 變體:
- HyDE:由 LLM 先根據問題生成一個“假想答案文檔”,再用該文檔向量去檢索真實文檔,從而提高召回質量;
- ReAct + RAG:LLM 以“思考(Reasoning)+ 行動(Action)”的方式,在推理中多次調用檢索工具,逐步細化問題、補充證據,類似“邊思考邊查資料”;
- 多輪 RAG:在對話過程中,保留歷史檢索結果和回答,形成上下文感知的長期知識會話,而不僅是“單問單檢索”。
8.2 結構化數據與知識圖譜(Structured Data & KG)
如果說 RAG 主要解決“如何在大規模非結構化文檔中查資料”,那麼結構化數據與知識圖譜這一層,則更多面向“如何優雅地用好數據庫、報表系統和圖數據庫中的結構化知識”。
在企業環境中,真正關鍵的業務數據——訂單、客戶、合同、庫存、行為日誌——往往以關係數據庫、數據倉庫、OLAP 引擎或圖數據庫的形式存在。這些系統在查詢能力、計算效率和審計方面已經非常成熟,但對於業務人員而言,直接寫 SQL / DSL 仍然門檻較高。Text‑to‑SQL / Text‑to‑DSL 與 知識圖譜問答與推理 ,就是要讓 LLM 在不破壞這些系統穩定性的前提下,作為“自然語言界面”和“推理協作夥伴”插入進來。
- 場景
- BI 智能問答與自助分析:業務人員用自然語言發問(如“幫我看看最近 3 個月華東地區新客的復購率趨勢”),系統自動生成 SQL,查詢數據倉庫,然後用自然語言和可視化圖表返回結果。
- 運營 / 銷售分析助手:運營同學可以用對話的方式探索數據(“這個活動轉化率為什麼下降”“哪些渠道貢獻了最多高價值用戶”),在多輪對話中逐步細化條件和維度。
- 領域知識中臺:將實體、概念、規則和案例組織為知識圖譜,支持圍繞某個實體進行上下游關係探索和合規性檢查。
- 圖數據庫問答與推理系統:在風險控制、反洗錢、供應鏈分析等場景中,通過圖數據庫與 LLM 聯合,對“關係鏈條”和“多跳推理”類問題進行回答與解釋。
- 原理 這一層的核心,是把 LLM 從“直接給答案的人”變成“會調用數據庫與圖數據庫的助手”:
- 在數據庫問答中,模型需要理解用戶的自然語言意圖,結合數據庫 schema(表結構、字段含義、約束等),生成正確的 SQL / GraphQL / 內部 DSL,再對執行結果進行解釋與可視化。
- 在知識圖譜場景中,系統需要先從文檔和日誌中抽取實體和關係,構建結構化圖譜;然後在問答時由 LLM 負責把自然語言問題轉譯為圖查詢(如 Cypher),並基於查詢結果進行多跳推理和解釋。
- 與 RAG 不同,這裡強調的是 對結構化數據與圖結構的精確訪問 ,一方面要保證語義正確、語法嚴謹,另一方面要控制側寫攻擊、敏感數據暴露和高成本查詢。
- 模型 典型方案通常是“LLM + 專用組件”的多模塊架構:
- Text‑to‑SQL 模型:在大規模 SQL 語料上預訓練或微調的模型(如 PICARD、DIN‑SQL 等),側重語法正確性與 schema 對齊,有時會搭配執行反饋進行自我修正。
- 信息抽取與圖譜構建 pipeline:通過實體識別(NER)、關係抽取、事件抽取等模塊,從文本和日誌中構建和更新知識圖譜;LLM 可以參與難例抽取、邊界模糊關係的輔助判斷。
- LLM + 圖數據庫聯合問答:LLM 負責問題解析、查詢生成與結果解釋,圖數據庫(如 Neo4j 等)負責高效執行與多跳關係搜索,兩者通過工具調用協議或中間 DSL 對接。
8.2.1 數據庫問答(Text‑to‑SQL / DSL)實踐
數據庫問答的目標,是讓業務人員“用自然語言問數據”,而系統在背後自動完成查詢語句生成、執行與解釋。要把這件事做好,關鍵在於兼顧 語義準確性、語法正確性和執行安全性 。
- 自然語言到 SQL / DSL 的轉換 在最基礎的鏈路中,系統需要:
- 解析用戶意圖:識別出查詢對象(如“華東地區新客”)、過濾條件(時間、地區、渠道)、聚合方式(總數、平均值、同比/環比)和展示需求(趨勢、排行、Top‑N);
- 結合數據庫 schema:理解哪些表與字段可以表達上述概念,如何進行關聯(join)、分組(group by)和排序;
- 生成可執行的 SQL / GraphQL / 內部 DSL,並通過語法校驗器或專門的 Text2SQL 模型(PICARD、DIN‑SQL 等)確保結構合法。
- 執行結果的自然語言解釋與可視化 查詢執行後,系統還需把“冷冰冰的結果集”變成“可理解的洞察”:
- 對簡單結果進行文本解釋,如“過去 3 個月華東地區新客的復購率整體呈上升趨勢,從 15% 提升到 21%”;
- 對複雜結果選擇合適的可視化形式(折線圖、柱狀圖、餅圖、分佈圖等),並給出簡要分析;
- 支持用戶基於當前結果繼續追問(如“這波增長主要來自哪些渠道?”),自動在歷史 SQL 和上下文的基礎上構造新的查詢。
- 安全與控制:防止“亂查”和“越權” 由於 LLM 生成的 SQL 具有高度靈活性,必須有一層安全與治理機制:
- 基於用戶角色與權限,對可查詢的庫、表、字段和時間範圍做嚴格限制;
- 為模型生成的 SQL 配備靜態/動態審查規則,過濾危險操作(如大範圍掃描、高成本 join、跨租戶查詢等);
- 將“自然語言問題–生成 SQL–執行結果–最終回答”完整記錄,用於審計與異常分析。
8.2.2 知識圖譜構建與查詢
知識圖譜試圖把散落在文本、表格、日誌中的知識,組織成“實體–關係–屬性–事件”的結構化網絡,從而更好地支持 關係探索、多跳推理和複雜問答 。在這一方向上,LLM 與傳統信息抽取、圖數據庫形成了良好的互補。
- 從文檔中抽取實體和關係構建圖譜 構建知識圖譜通常採用多階段 pipeline:
- 信息抽取:利用 NER、關係抽取、事件抽取等模型,從文本中識別實體(人、機構、產品、地名、概念等)、它們之間的關係(隸屬、合作、依賴、因果)以及關鍵事件(交易、風險、變更);
- 規範化與對齊:將同一實體的不同表述(簡稱、別名、拼寫變體)進行歸一,對齊到統一 ID;
- 圖譜更新與版本管理:支持增量更新、衝突解決和錯誤糾正,確保圖譜在長期演化中保持質量與一致性。LLM 可以在歧義消解、關係類型細化、規則歸納等環節輔助傳統算法。
- LLM + 圖數據庫(Neo4j 等)的查詢與推理 當圖譜構建完畢,圖數據庫負責高效存儲和檢索,而 LLM 則可以扮演“自然語言入口 + 推理控制器”的角色:
- 問題解析與圖查詢生成:將自然語言問題轉譯為圖查詢語句(如 Neo4j 的 Cypher),包括確定起點實體、關係類型、路徑長度與過濾條件;
- 多跳推理:通過圖查詢得到的路徑和局部子圖,再由 LLM 進行解釋與歸納,如“客戶 A 與高風險實體 B 之間通過三家公司間接相連”;
- 結果可視化與可解釋性:將圖查詢結果以可視化網絡形式呈現,同時由 LLM 給出口頭說明,幫助用戶理解複雜關係結構。
- 領域知識中臺與統一服務 在更大規模的企業或行業級應用中,知識圖譜往往作為“領域知識中臺”存在:
- 為上層業務系統(風控、合規、客戶 360 視圖、供應鏈分析等)提供統一的實體和關係視角;
- 與 RAG、數據庫問答共同構成統一的知識服務層,由統一的 LLM 編排邏輯決定當前問題該訪問文檔索引、關係數據庫還是圖數據庫;
- 在安全和合規要求下,通過圖譜層面的訪問控制和脫敏策略,進一步降低敏感信息洩露的風險。
這一層的共同目標,是把“模型會說話”升級為“模型既會說話,又真正接上了企業的真實數據與知識資產”。當 RAG、Text‑to‑SQL、知識圖譜與傳統數據基礎設施有效結合之後,AI 系統才能在複雜業務環境中既保持智能和靈活性,又具備可控性、可解釋性和長期演化能力。
9. 安全、對齊與評估(Safety / Alignment / Evaluation)
在前面的章節裡,我們更多從“模型能做什麼”出發:能看圖、能寫代碼、能和用戶對話。但在真實的大模型系統中,僅僅“有能力”遠遠不夠:怎麼證明這些能力是穩定、可靠、可控的?怎麼確保輸出符合價值觀和合規要求?在長週期運營中如何持續監控、迭代與迴歸? 這一層關注的就是: 能力評估與基準測試、價值對齊與訓練、內容安全與合規、以及魯棒性與幻覺控制 ,共同構成一個可持續運營的大模型“基礎設施層”。
從產品視角看,這些能力貫穿模型全生命週期:模型在實驗室階段需要標準 Benchmark 與專業評估;上線前要通過對齊訓練與安全審查;上線後依賴內容安全網關、日誌審計與 A/B 測試持續監控;面對新場景與新威脅時,又要回到評估與對齊環節重新訓練和驗證。下面我們從能力評估與基準測試、價值對齊與訓練、內容安全與合規、魯棒性與幻覺控制四個方向展開。
9.1 能力評估與基準測試(Capability Evaluation & Benchmarks)
在大模型研發和落地過程中,能力評估與基準測試是把“模型能力”轉化為“可觀測信號”的關鍵一環:既要回答“這個模型總體水平怎麼樣”,也要回答“在某個專業領域、某種真實業務場景下表現如何”。一方面,我們通過標準化的基準集與自動評測體系,去衡量模型在語言理解與生成、推理與數學、知識與事實性等通用維度上的表現;另一方面,還需要針對醫療、法律、金融、教育等專業領域構建專門評測,並在真實用戶對話、AB 測試和業務指標(Task Success Rate、CSAT、工單關閉率等)中不斷驗證與修正。整體上,這一層最終會沉澱為內部的能力評估平臺與對外的“ 能力說明書 ”,併為多版本、多租戶、多場景的模型選型提供統一決策依據。下面從 場景 、 原理 、模型三個角度展開。
- 場景
- 通用能力評估場景 :在基礎模型或大版本更新時,需要系統性地評估其在閱讀理解、摘要、翻譯、對話質量等語言理解與生成任務上的表現,以及在算術、多步推理、代碼/邏輯題等推理與數學任務中的能力,同時通過事實問答、開放域 QA、知識覆蓋度任務衡量其知識與事實性水平,用於判斷“新模型是否整體抬升”。
- 專業領域評估場景 :對於醫療、法律、金融、教育等細分領域,需要設計專業問答與決策模擬,比如疾病問答與分診建議、法律條文理解與案例歸類、投融資分析與風控判斷、教學答疑與作業輔導,並在多語言、多文化環境下測試模型的一致性與穩定性,確認其能否在高風險環境中“說對話、說適當的話”。
- 真實場景與業務指標評估場景 :在產品上線和持續運營階段,通過用戶對話日誌回放、線上 AB 測試等方式,將模型表現映射到 任務完成率(Task Success Rate) 、 用戶滿意度(CSAT) 、工單關閉率等業務指標;此時評估對象實際是“模型 + 策略 + 產品流程”的整體系統,用於指導版本回滾、策略調優和新功能放量。
- 原理 能力評估體系可以看作一個分層的“測量系統工程”,其核心原理包括:
- 標準基準集:公共刻度與可復現實驗
- 語言 / 推理:使用 MMLU 、BIG-Bench 等綜合性任務,配合 GSM8K 、MATH 等數學與邏輯題目,構建對語言理解、知識掌握、多步推理的統一刻度。
- 編程:通過 HumanEval 、 MBPP 、Codeforces 題庫等,量化代碼生成、程序修復與問題求解能力。
- 多模態:利用 VQA 、 MMBench 、 ScienceQA 、MathVista 等基準測試圖文理解、視覺問答和圖像中的數學推理。 這些基準強調 標準化、可復現、可對比 ,便於跨模型、跨機構進行橫向對比和對外披露。
- 自動評測:規模化與持續迴歸
- LLM-as-a-Judge :用更強或專門訓練的模型對回答進行打分/排序,評價正確性、完整性、風格和安全性,實現大規模自動主觀評測。
- 基於規則的度量 :如 BLEU / ROUGE / BERTScore 衡量文本相似度,Pass@k 衡量代碼題通過率等,使得在固定數據集上可以快速比較不同版本的差異。 自動評測的關鍵在於 穩定性與一致性 ,即便不完美,只要“偏差一致”,就可以在持續集成(CI)中可靠地反映模型相對變化。
- 人工評測:對齊人類感知與業務目標
- Pairwise 對比與打分標註 :由標註員對 A/B 兩個模型回答做 pairwise 選擇或多維度打分(helpful / honest / harmless 等),是訓練 RLHF / RLAIF 獎勵模型的重要數據來源。
- 線上用戶實驗 :通過對話助手、搜索/推薦等落地場景做 AB 測試,直接觀察不同模型 / 策略對用戶滿意度、轉化率等指標的影響。 人工評測既用於 校準自動評測 ,也是對外“解釋模型行為”時的重要依據。
- 標準基準集:公共刻度與可復現實驗
- 模型 在工程實踐中,能力評估會沉澱為一套相對完整的“平臺 + 流程 + 指標體系”:
- 內部能力評估平臺與 CI 流水線 :統一管理各類基準集、評測腳本、LLM-as-a-Judge 配置與人工標註工具,支持新模型或新策略提交後一鍵觸發 Benchmark 迴歸;自動彙總不同任務和維度的指標變化,提供可視化 Dashboard 與迴歸告警。
- 對外“能力說明書”與模型畫像 :將內部評估結果整理為對外可消費的“能力說明書”,包括代表性基準成績、推薦適用場景(如通用對話、代碼輔助、多模態理解等)、已知侷限與不適用場景,幫助客戶形成正確預期,也為合規和責任劃分提供依據。
- 多租戶 / 多版本模型統一評測與選型工具 :在同一套評估體系下,統一比較不同尺寸、不同對齊策略或不同架構的模型,支持按行業、地區、SLA 要求配置權重,自動生成“性能–成本–延遲”綜合評分,幫助產品和業務方做模型選型與灰度發佈決策。
9.1.1 通用與專業能力評估:從 Benchmark 到場景驗證
通用與專業能力評估是整個評估體系的“第一層地基”,重點在於:先用統一刻度衡量模型的 基礎能力 ,再在專業場景中驗證其 可用性與風險 。
在通用能力評估中,通常會將任務拆分為語言理解與生成、推理與數學、知識與事實性三個維度:前者通過閱讀理解、摘要、翻譯、對話質量任務,檢查模型是否能準確理解上下文、控制風格並輸出連貫文本;中者通過算術、多步推理、代碼 / 邏輯題,評估模型在複雜推理鏈和程序結構上的能力;後者則通過事實問答和開放域 QA 度量知識覆蓋度和事實性水平。在專業領域評估中,則需要邀請行業專家參與數據設計:如醫療問答中設定病史、化驗結果等上下文,要求模型在回答中給出風險提示和就醫建議邊界;法律任務中設計條文檢索、案例比對、法律適用分析;金融與教育中則聚焦合規披露與教學引導。這一層評估往往結合標準基準集與自建數據集,既追求可對比性,也兼顧業務相關性。
9.1.2 自動評測與 LLM-as-a-Judge:讓評估可擴展
當任務規模和模型版本數迅速增長後,僅依賴人工已經難以支撐評估需求,此時需要通過自動評測體系實現 規模化與高頻迴歸 。
一類做法是利用傳統的基於規則度量:在翻譯、摘要等任務上,用 BLEU / ROUGE / BERTScore 與參考答案對比,在代碼任務上用 Pass@k 測試在多個生成樣本中是否至少有一個通過單測。這類指標實現簡單、可高度自動化,但對答案多樣性與風格細節不敏感。另一類更具代表性的做法是 LLM-as-a-Judge :將更強或專門訓練的模型用作“打分裁判”,根據預定義的評分 Rubric,對被測模型輸出進行維度化打分或 Pairwise 排序。這允許我們在沒有標準答案、回答多樣的開放問答和對話任務中也進行高效自動評估。實際工程中,LLM-as-a-Judge 的評分標準和 Prompt 需要經過人工標註數據校準與迭代,以確保其與人類評委的一致性。
9.1.3 人工評測與業務指標:閉環到真實用戶體驗
再完備的離線指標,也只能近似真實用戶體驗。為了把能力評估閉環到業務,需要引入人工評測與線上實驗兩類手段。
人工評測側,常見的是 Pairwise 對比:讓標註員在看不到模型身份的前提下,基於 helpful / honest / harmless 等維度,對 A/B 兩個回答做偏好選擇或打分,從而得到高質量偏好數據,一方面用於直接評估,另一方面可以為 RLHF / RLAIF 訓練獎勵模型提供數據。在業務側,則通過線上 AB 測試,對比不同模型、提示詞、策略配置版本對任務完成率、用戶滿意度(CSAT)、工單關閉率等關鍵指標的影響,輔以用戶對話日誌回放和人工抽檢,持續監控模型上線後的真實表現。這一層評估的輸出又會反過來指導能力評估平臺的重點方向和權重調整,形成“離線指標—人工評測—線上指標”的閉環。
9.2 價值對齊與訓練(Value Alignment & Training)
在擁有強大基礎能力之後,大模型要成為“安全、可靠、可控”的產品,還必須經歷 價值對齊與訓練 。這一層關注的不再是模型“能不能回答”,而是“ 回答得是否有用、誠實、無害 ”以及“在不同角色和行業中應該如何說話”。從工程角度看,對齊過程大致包括三步:首先通過文檔與規範明確 對齊目標定義(What to Align) ,將有用(Helpful)、誠實(Honest)、無害(Harmless)拆解為可標註、可訓練的標準;其次構建覆蓋廣泛的 指令數據與安全數據 ,涵蓋正常任務、灰區案例與不合適回答;最後通過 SFT、RLHF / RLAIF、拒答/重定向策略建模 等方法,將這些偏好與規則“寫進”模型行為中,並輔以上游對話管理與策略引擎,實現端到端的安全對齊。下面同樣從 場景 、 原理 、模型三個角度展開。
- 場景
- 通用 C 端助手場景 :面向大眾用戶的聊天助手、信息檢索助手,需要在廣譜話題下保持“ 友好、有幫助、不越界 ”:既要回答得專業、聚焦任務,又要在不確定時坦誠表達侷限,對明顯不當需求進行拒答或柔性引導。
- 專業行業助手場景 :在醫療、法律、金融、教育等領域,除了基礎安全,還要疊加行業規範:例如醫療助手需要反覆強調“非診斷性質 + 風險提示 + 建議就醫”,法律助手要避免提供違法規避建議,金融助手要遵守投資合規披露要求,教育助手要考慮未成年保護與適齡內容。
- B 端可配置對齊層場景 :企業往往希望在通用安全基線之上,進一步嵌入自身的行業要求、品牌語氣和內部政策,因此需要一個 可配置的對齊層 ,允許客戶自行配置安全閾值、敏感類別和話術風格,而不必重訓底層大模型。
- 原理 價值對齊可以理解為“用人類和組織的價值觀約束模型的行為空間”,其核心原理包括:
- 對齊目標定義(What to Align)
- 有用(Helpful) :回答應高質量、專業、結構清晰、聚焦任務目標,不過度發散和閒聊。
- 誠實(Honest) :儘量不胡編亂造,在知識缺失或理解不清時主動承認不確定性、給出估計範圍或建議查證渠道。
- 無害(Harmless) :遵守法律與平臺政策,避免生成仇恨、歧視、自殘鼓勵、違法犯罪指導等內容,並尊重用戶的尊嚴與邊界。 這些目標會被寫入標註指南與策略文檔,成為後續數據構建、獎勵建模和評測的統一標準。
- 對齊訓練數據構建
- 指令數據(Instruction) :設計覆蓋廣泛的任務指令與理想回答,涵蓋問答、寫作、總結、代碼、規劃等多種場景,教會模型在“正常請求”下的最佳行為。
- 安全數據(Safety) :構建“好的回答 vs 不合適回答”對照樣本,特別注重灰色邊界(gray zone),如科普信息 vs 具體操作、情緒支持 vs 自殘鼓勵、合法辯論 vs 仇恨煽動等,為模型提供細粒度的邊界示例。
- 對齊訓練方法
- SFT(Supervised Fine-Tuning) :在高質量對話 / 指令數據上進行有監督微調,是塑造模型基準行為和語氣的第一步。
- RLHF / RLAIF :通過人類或模型打分構建偏好數據,訓練獎勵模型,然後進行策略優化,讓模型在生成時傾向於被“偏好”的回答(更有用、更安全、更誠實)。
- 拒答 / 重定向策略建模 :針對高風險或不適當請求,訓練模型不僅會拒答,還能給出合理解釋並引導用戶到安全替代方案(例如提供求助資源、鼓勵諮詢專業人士等)。
- 對齊目標定義(What to Align)
- 模型 在系統設計上,價值對齊通常體現為“ 底層對齊訓練 + 上層策略護欄 ”的組合:
- SFT + RLHF / RLAIF 對齊模型 :SFT 階段讓模型學會理想回答的基本模式;RLHF / RLAIF 階段則通過偏好學習進一步“收緊”行為,使其更貼近人類偏好與安全標準。在安全維度上,可以單獨為有害性構建獎勵頭或分類器,用於在策略優化中施加懲罰。
- Constitutional AI / Policy-based Alignment :通過先撰寫一套“憲法(Constitution)”或 Policy 文檔,再讓模型根據這套規則進行自我批評與重寫,生成大量“自監督批改數據”,在減少人工成本的同時強化模型對規則的內化。
- 對話管理與意圖檢測協同 :在產品管線中,將安全 / 對齊邏輯部分上移到對話管理層,通過意圖識別、槽位填充、任務路由決定請求是否交給大模型、是否需要額外的安全過濾或模板化回覆。這樣可以形成“模型對齊 + 策略護欄”的雙重保險。
- 內部對齊平臺與角色配置 :建設內部對齊平臺,提供標註 / 打分工具、策略版本管理和訓練流水線;同時支持為不同角色(客服、醫療建議、教育輔導等)配置差異化對齊目標和話術風格,使同一底座模型在不同產品中展現出截然不同但可控的一致人格。
9.2.1 對齊目標與訓練數據:把價值變成可學習信號
價值對齊的第一步,是把“抽象價值觀”轉譯成模型可以學習的信號,而這離不開對齊目標定義和訓練數據構建。
在對齊目標層面,團隊通常會輸出一套詳細的行為規範文檔,將 Helpful / Honest / Harmless 拆解為具體條款,如:禁止給出某類高危操作的具體步驟、對於醫療/法律建議必須附帶免責聲明和風險提示、在涉及爭議話題時保持中立與多視角呈現等。接著,在指令數據階段,會圍繞這些指標構建多樣化任務與理想回答,涵蓋聊天、寫作、代碼、問答等場景,並融合多語言、多文化背景;在安全數據階段,則針對有害內容、高風險領域與灰色地帶,構建成對的“好 / 壞回答”示例,為後續偏好學習和安全分類器提供訓練素材。通過這種方式,價值目標被“翻譯”為實際數據分佈,成為模型訓練可以直接感知的信號。
9.2.2 SFT、RLHF / RLAIF 與拒答策略:塑形模型行為
有了對齊目標和數據之後,下一步是通過多階段訓練過程將這些目標寫入模型行為。
在 SFT 階段,模型在高質量人類示範數據上進行有監督微調,這類似於“教科書式學習”:它決定了模型在絕大多數正常請求下的語氣、結構和解決問題的標準範式。隨後,通過 RLHF** / RLAIF** 進行偏好優化:先利用人類標註或更大 LLM 產生的偏好標籤訓練獎勵模型,再使用策略優化算法(如 PPO 等)調整模型,使其在生成中傾向於獲得更高獎勵。這樣,模型不僅“知道正確答案長什麼樣”,還知道“哪種答案更符合人類偏好和安全要求”。在此基礎上,還會專門建模各種 **拒答與重定向策略** :對於明顯違法、極高風險或不適合由 AI 回答的問題,模型應該學會給出清晰的拒絕與解釋,並提供安全的替代路徑(如求助熱線、專業諮詢等),而不是簡單沉默或隨意搪塞。
9.2.3 策略層與對齊平臺:讓對齊可配置、可演進
即便底層模型已經進行了充分對齊訓練,在實際系統中仍需要策略層與對齊平臺來實現更細粒度的可控性和可演進性。
策略層通常包含意圖識別、風險評估與路由邏輯:當用戶輸入到達系統時,先由輕量模型判斷其意圖、領域和風險等級,再決定是否直接調用大模型、是否需要額外安全過濾、是否落入模板回覆或轉人工渠道。對於不同行業和客戶,策略層可以加載不同的 Policy 配置,實現對敏感類別、拒答風格和品牌語氣的定製。與此同時,內部對齊平臺會管理所有對齊相關資產:標註/打分工具、獎勵模型版本、策略變更記錄、在線 A/B 結果等,使團隊可以在不頻繁重訓底座模型的前提下,對對齊策略進行快速迭代和灰度發佈,從而保持對模型行為的持續掌控。
9.3 內容安全與合規(Content Safety & Compliance)
隨著大模型被嵌入到搜索、對話、內容創作、社交平臺乃至企業內部系統中,內容安全與合規從“附加功能”變成了“准入門檻”。這一層關注的是:模型在生成文本、圖像、音視頻時,是否會產生違法有害內容;系統在處理用戶數據時,是否符合所在國家/地區和所屬行業的法律法規;以及在面對審計與監管時,能否給出清晰可追溯的證據鏈。為此,我們需要構建覆蓋多模態內容審核、區域與行業合規、本地隱私與數據保護的完整技術與治理體系,並將其封裝為 SaaS 內容安全服務、企業合規中臺和行業安全網關等產品形態。下面同樣從 場景 、 原理 、模型三個角度展開。
- 場景
- 多模態內容審核與過濾場景 :在對話產品、UGC 平臺、社區與社交應用中,大模型會生成或接收大量文本、圖像、音視頻內容,需要通過統一的多模態審核能力,實時識別並攔截涉及個人隱私、違法犯罪指導、仇恨煽動、極端暴力、色情與未成年人不當內容等高風險輸出。
- 合規約束與本地化場景 :不同國家/地區的法律法規對數據保護、未成年人保護、內容監管等有不同要求;不同行業(醫療、金融、教育、廣告等)也有細化的合規規範。因此係統必須支持按地區與行業加載不同策略模板,以符合當地監管要求。
- 用戶隱私與數據保護場景 :在模型訓練和在線服務過程中,需要處理大量用戶對話和業務數據,如何實現數據匿名化、脫敏和最小採集,同時在訓練和推理階段通過技術和制度手段保護隱私,是內容安全與合規體系的另一根支柱,尤其在金融、醫療等高敏感行業。
- 原理 內容安全與合規的底層原理可以分為策略、過濾和隱私三個層面:
- 安全策略系統(Policy Engine)
- 將法律法規、平臺規則、行業規範 形式化為可執行策略 ,通過規則引擎結合模型打分,對內容進行風險分級(安全 / 灰區 / 高危)。
- 支持按場景和客戶選擇不同策略模板,例如為青少年產品、專業社區或跨國企業配置不同的敏感類別與閾值。
- 多級內容過濾:事前–事中–事後
- 事前 :對用戶 Prompt 做攔截與重寫(Prompt Shielding),在請求進入大模型前阻斷明顯違法或高度敏感的意圖,或將其引導為較為安全的表達方式。
- 事中 :在模型生成輸出時,利用安全分類模型與規則對內容進行實時審查(Real-time Safety Filter),對高風險內容進行截斷、替換、打碼或觸發拒答。
- 事後 :對對話和生成日誌做抽樣審計與人審複核,對發現的問題進行溯源分析,進而更新策略和模型,併為外部監管提供可追溯的記錄。
- 隱私保護技術與**數據治理**
- 在數據存儲和訓練前,對用戶對話數據進行 匿名化與脫敏處理 ,移除或替換姓名、身份證號、手機號、地址等敏感字段,並遵循最小採集原則只保留必要信息。
- 在某些場景中採用差分隱私(DP)限制單個樣本對模型參數的影響,或者通過聯邦學習(FL)將訓練留在本地數據域,避免原始數據上雲。
- 利用 RBAC** / **ABAC 等訪問控制機制,嚴格限制誰可以訪問什麼級別的日誌與敏感數據,並配合審計日誌保證訪問路徑可追蹤。
- 安全策略系統(Policy Engine)
- 模型 從產品與系統設計角度看,內容安全與合規最終會演化為一系列可複用的“安全服務與中臺”:
- SaaS 內容安全服務 :將文本 / 圖像 / 音視頻審核能力封裝為統一 API,對接上游應用;輸入內容,輸出風險類型、分級和處理建議(放行、攔截、人審),幫助開發者快速集成安全模塊。
- 企業內部合規中臺 :為大型企業提供集中管理的合規策略配置、審計報表和風險告警能力,對接內部的業務系統和人審團隊,使各業務線在統一策略下執行自定義規則,並滿足外部監管報告需求。
- 高風險行業專用安全網關與日誌審計系統 :在金融、醫療等高風險行業,通過專用安全網關代理所有大模型調用,對流量進行實時檢查與脫敏,將關鍵日誌留存在本地或合規區域,提供詳盡的訪問審計和事件追溯能力,滿足嚴格的監管要求。
9.3.1 多模態審核與策略引擎:把規則變成“可執行的代碼”
實際的內容安全系統,首先要能“看懂”來自不同渠道與模態的內容,然後才能將策略落地到每一次請求與響應上。
在多模態審核方面,系統通常會構建文本、圖像、視頻等多種檢測模型:文本側模型識別敏感關鍵詞、上下文語境和隱晦表達;圖像和視頻側則檢測暴力、色情、未成年人、仇恨符號和違法物品等內容,並在必要時結合 OCR、ASR 和視覺特徵進行聯合判斷。策略引擎則把這些模型輸出與法規要求綁定在一起:例如,在某一地區對賭博或政治內容有更嚴格限制,就可以在對應策略模板中提高相關檢測類別的敏感度,或對命中這些分類的內容強制轉人工複核。通過把抽象規則轉化為規則鏈、閾值和動作(放行/攔截/人審/打碼),Policy Engine 讓合規要求真正“跑起來”。
9.3.2 多級過濾與日誌審計:構建端到端安全閉環
單一環節的攔截很難覆蓋所有風險,因此內容安全體系普遍採用事前–事中–事後三層防線的設計。
在事前階段,系統會對用戶輸入進行快速檢測,對明顯違規或高度敏感的 Prompt 直接拒絕或重寫,引導用戶以安全方式提問;對於邊界嘗試和模糊請求,也可以主動補充聲明和風險提示。在事中階段,模型輸出會經過實時安全過濾組件:該組件會利用文本分類和規則匹配,對潛在高危輸出進行剪裁、替換或觸發拒答流程,確保最終呈現給用戶的內容落在可接受範圍內。事後階段,則通過日誌審計與抽檢機制,由安全團隊或可信的自動系統定期回放與檢查會話,分析誤判、漏判和新型風險樣式,並據此更新策略、訓練數據和檢測模型。這樣形成一個持續演進的安全閉環,而不是“一次性配置”。
9.3.3 隱私保護與行業安全網關:讓數據安全“可證明”
在高敏感行業中,僅僅“不輸出有害內容”還遠遠不夠,還要證明“內部對用戶數據的使用同樣安全、合規、可追蹤”。
隱私保護從數據進入系統開始:在採集和存儲階段就儘量進行匿名化和脫敏,確保即使日誌洩露也難以直接關聯到具體個人;在訓練階段,則通過差分隱私、採樣策略或聯邦學習減少單個用戶數據對最終模型的影響和外洩風險。對於模型推理流量,則通過安全網關進行統一接入管控:所有請求與響應都要經過網關的內容檢查、權限校驗和審計記錄,必要時根據業務線和用戶角色應用不同的訪問策略與數據視圖。最終,這些日誌和策略變更記錄會沉澱為可供內部審計和外部監管查看的“證據鏈”,使企業不僅在事實上合規,而且在形式上“可證明自己合規”。
10. AI for Science(AI4Science)
當深度學習和大模型從“推薦廣告、理解自然語言”走向 科學問題本身 ,目標不再只是預測一個指標或做一個分類,而是要真正參與到發現規律、設計實驗、加速仿真與推理之中。AI4Science 試圖把“統計模式識別”與“物理定律 / 生物化學規律 / 數學結構”結合起來,讓模型在分子設計、蛋白工程、材料發現、物理仿真、數學推理等環節中充當“可編程的科學助手”。
在工程實踐中,這一層一端連接量子化學軟件、分子動力學(MD)、CFD/FEA 仿真器、自動定理證明器、文獻數據庫和自動化實驗室(Robotic Lab)等“傳統科學基礎設施”,另一端連接製藥公司、材料企業、能源公司、科研機構的真實科研工作流。下面從 場景 、 原理 、模型三個角度展開,並在若干關鍵方向上進一步細分。
- 場景
- 分子與藥物設計:從海量小分子 / 片段出發,預測性質與 ADMET,設計針對特定靶點的候選藥物,並通過虛擬篩選和多目標優化縮小實驗空間。
- 蛋白質與生物結構建模:預測蛋白及複合物的三維結構,輔助抗體、酶、蛋白藥物設計,評估突變對功能與穩定性的影響。
- 物理仿真與工程設計:用深度替代模型加速 CFD / FEA / 分子動力學等高成本仿真,為航空航天、汽車、能源等領域提供快速評估與優化工具。
- 材料發現與晶體設計:在龐大化學 / 材料空間中進行虛擬篩選和逆設計,加速電池、光伏、催化劑、合金等關鍵材料的研發。
- 數學與符號推理:在形式系統中做自動定理證明、符號計算和方程求解,增強大模型在數學題、工程推導中的嚴謹推理能力。
- 科學工作流與自動化實驗:對接文獻、數據庫與自動化實驗平臺,構建“自驅動實驗室(Self‑Driving Lab)”,讓模型參與實驗設計、執行與結果分析。
- 原理
- 結構化表示與圖建模:用圖(Graph)、晶體圖(Crystal Graph)、分子圖等結構表徵複雜對象,在圖神經網絡或 E(3)-等變網絡上建模幾何與拓撲關係。
- 物理 / 化學歸納偏置:通過守恆定律、對稱性(平移 / 旋轉 / 反射)、PDE 約束(PINN)、能量勢函數等方式,將物理先驗融入模型結構與損失函數。
- 生成與逆設計:利用 VAE、GAN、Diffusion、RL 等生成式建模方法,支持從“目標性質 / 約束條件”反推結構,實現分子 / 材料 / 結構的逆設計。
- 代理模型與多尺度耦合:用深度代理模型近似昂貴的量子化學 / 連續介質 / 結構力學仿真,並將微觀–中觀–宏觀模型拼接起來,實現多尺度建模。
- 工具增強與 Agent 工作流:將 LLM 與模擬器、符號計算器、自動定理證明器、文獻檢索系統和實驗機器人組合,構建可自動規劃和執行科學任務的 Agent。
- 模型
- 分子與材料表徵模型:SchNet、DimeNet、PhysNet、CGCNN、MEGNet、ALIGNN 等 E(3)-等變網絡與圖網絡,ChemBERTa、MolBERT、MoleculeSTM 等分子語言模型。
- 結構生物學模型:AlphaFold / AlphaFold2 / AlphaFold3、RoseTTAFold、OpenFold、ProteinMPNN、ESM‑IF、ESM 系列蛋白語言模型與結構生成模型。
- 物理仿真與算子學習:PINN、DeepONet、Fourier Neural Operator (FNO) 及 Neural Operator 家族、DeepMD、NequIP 等勢能面與算子學習模型。
- 數學與符號推理模型:Minerva、Gödel、GPT‑f、Lean‑Dojo 等數學 / 證明專用模型,以及 LLM + SymPy/Mathematica/Lean/Coq 的工具增強系統。
- 科學 Agent 與工作流系統:結合檢索、代碼生成、仿真調用與實驗控制接口,為製藥、材料、物理、化學等領域封裝的“AI 科學助手”和自驅動實驗平臺。
從這一層開始,傳統科學計算與深度學習、大模型深度交織:既要尊重物理 / 化學 / 生物 / 數學的嚴格約束,又要利用數據驅動的強擬合能力提升效率,最終目標是讓 AI 成為科研中的“合作者”,而不僅僅是一個預測黑盒。
10.1 分子與藥物設計(Molecular Modeling & Drug Discovery)
在傳統藥物研發中,從靶點發現到臨床試驗往往需要 10+ 年和數十億美元成本,而極大一部分時間與資金耗費在早期的分子設計、性質預測和虛擬篩選階段。AI 驅動的分子建模與藥物設計,旨在用數據驅動 + 生成式建模加速這一過程:從結構或文本描述出發,預測分子性質與 ADMET,設計針對特定靶點的候選化合物,並通過多目標優化與虛擬篩選顯著減少溼實驗負擔。
這一方向一端連接量子化學軟件(DFT、ab initio)、生物活性實驗、HTS(High‑Throughput Screening)等數據來源,另一端連接藥企內部的 Small Molecule Design 平臺、性質預測 SaaS、材料 / 化學品設計工具。下面從 場景 、 原理 、模型三個維度展開。
- 場景
- 早期虛擬篩選與 Hit 發現:面對數百萬到數十億規模的虛擬分子庫,通過 AI 快速預測活性 / ADMET,對候選分子排序,篩出少量高價值 Hit 進入實驗環節。
- 分子性質與 ADMET 評估:在先導化合物優化(Lead Optimization)階段,持續預測溶解度、毒性、代謝穩定性以及口服生物利用度等指標,為藥代動力學和安全性評估提供參考。
- 靶點導向分子生成:給定蛋白靶點信息(口袋特徵、已知配體)或目標性質約束,自動生成結構多樣、具有高活性且可合成的候選小分子。
- 材料與化學品分子設計:面向非藥物場景,如塗料、溶劑、電解液、界面活性劑等分子,設計滿足特定物性(黏度、極性、界面能等)的配方分子。
- 原理
- 分子表徵與性質預測:
- 結構表示 :常見有 SMILES 序列、分子圖(原子為節點、鍵為邊)、3D 座標及量子特徵等;模型需要從這些表示中抽取可泛化的語義與幾何信息。
- 性質預測 :通過 GNN(GCN、GAT、MPNN)或 3D‑等變網絡(SchNet、DimeNet、PhysNet 等),從分子圖或 3D 結構中學習到能量、偶極矩、軌道能級等量子性質,以及溶解度、LogP、毒性、代謝穩定性等 ADMET 屬性。
- 表徵學習與預訓練 :基於大規模分子庫(如 ZINC、ChEMBL、PubChem)進行掩碼預測、對比學習或自迴歸預訓練,得到可遷移的通用分子表示,為下游 QSAR / ADMET 提供特徵。
- 結構生成與分子優化:
- 生成建模 :利用 VAE、GAN、Flow、Diffusion 等生成式模型,在 SMILES 或分子圖空間中採樣新分子,要求保證化學結構合法性(價態、環結構等)與多樣性。
- 條件生成 :引入條件向量(目標活性、理化性質、結構片段、靶點口袋描述等),在給定約束下生成候選分子,實現性質導向或片段補全式的設計。
- 多目標優化與 RL :通過強化學習(如 MolDQN 等)在分子空間中進行“編輯”操作(加原子、改鍵、替換片段),從而在活性、毒性、合成可行性、專利避讓等多個目標之間權衡。
- 蛋白 – 小分子相互作用建模:
- 結合位點與打分函數 :通過 3D 卷積 / 圖網絡 / 互作圖建模蛋白口袋與配體的空間關係,預測結合位點及結合親和力(Binding Affinity)。
- 對接與 Binding Pose 預測 :將 Docking 中的構象搜索與深度模型結合,用深度打分函數或 Diffusion 式生成預測穩定構象,提高對接準確率並降低計算成本。
- 分子表徵與性質預測:
- 模型
- 分子表徵模型:
- GNN 與 3D 網絡 :DimeNet / DimeNet++、SchNet、PhysNet 等考慮角度 / 距離的 3D 等變模型,GCN/GAT/MPNN 等通用圖神經網絡,適用於性質預測與 QSAR。
- 基於 SMILES 的 Transformer :將分子視為“化學語言句子”,用 Transformer 做自迴歸或掩碼語言建模,為生成與性質預測提供序列表示。
- 生成與優化模型:
- 圖生成模型:GraphVAE、Junction Tree VAE、GraphAF 等在圖 / 片段空間生成分子,強調結構合法性與可解釋性(片段級構造)。
- 擴散模型:Diffusion for Molecules 通過在圖或 3D 結構空間添加 / 去除噪聲生成新分子或構象,可與條件向量結合實現定製生成。
- 強化學習優化:MolDQN 等基於 RL 的方法,將分子優化視作在“分子編輯”狀態空間中的序列決策問題,用獎勵函數編碼多目標指標。
- 分子大模型與多模態方向:
- 分子語言模型 :ChemBERTa、MolBERT 等在大規模 SMILES 語料上預訓練,支持零樣本或小樣本轉移至下游任務。
- 多模態分子模型 :MoleculeSTM 等整合結構(圖 / 3D)、文本描述(合成路線、文獻摘要)、分子屬性,實現跨模態檢索與聯合預測。
- 產品與應用形態:
- 面向藥企的早期藥物篩選平臺與內部 Small Molecule Design 平臺,提供虛擬篩選、分子生成、ADMET 預測等一體化能力。
- 面向研發人員的性質預測 SaaS:通過 Web 或 API 方式快速查詢分子性質、ADMET、分子相似度等。
- 面向材料與化學品設計的分子級設計工具,用於塗料、溶劑、電解液等分子體系的定製開發。
- 分子表徵模型:
從這一子方向開始,藥物設計流程正在從“專家 + 高通量實驗”走向“專家 + 模型 + 自動化實驗”的閉環,AI 不只是給出分數,而是逐漸參與從“提出想法”到“生成候選”再到“篩選與優化”的完整環節。
10.1.1 分子表徵與性質 / ADMET 預測
在藥物與材料研發中,一個基礎能力是: 給定一個分子,快速且準確地預測其性質與行為 ,包括量子化學性質(能量、軌道、偶極矩)、理化性質(溶解度、LogP)、以及藥代 / 毒性相關的 ADMET 指標。這一問題的本質,是如何從不同形式的分子表示中學習到 既符合化學規律,又具備泛化能力的表徵 。
- 在分子表徵層面,常見的表示包括:
- SMILES / SELFIES 等字符串 :把分子視為序列,天然適合用 RNN / Transformer 進行語言建模。
- 分子圖表示 :原子為節點、鍵為邊,節點和邊帶有類型、價態、芳香性等特徵;適合用 GNN、MPNN 等建模鄰域與拓撲。
- 3D 幾何表示 :基於量子化學或力場優化得到的 3D 座標、鍵角、二面角等信息,為 E(3)-等變網絡捕捉空間結構提供基礎。
- 在性質與 ADMET 預測層面,目標任務包括:
- 小分子量子性質預測:能量、偶極矩、HOMO/LUMO 能級等,用以替代昂貴的 DFT / ab initio 計算。
- QSAR / 活性預測:給出化合物對特定靶點的活性(IC50、Ki)、選擇性等,用於篩選潛在候選。
- ADMET 相關指標:溶解度、滲透性、毒性、代謝穩定性、CYP 抑制等,是藥物可成藥性評估的關鍵。
典型模型路徑為:用 DimeNet / SchNet / PhysNet / GNN 等在分子結構上提取高維表徵,再通過多任務學習同時預測多種性質;在大規模公開或企業內部數據上進行預訓練,提高小數據場景的建模能力。對外則以 ADMET 預測 SaaS 或內部平臺 API 的形式提供服務,為項目組提供快速的“虛擬實驗”能力。
10.1.2 結構生成與分子優化:從 SMILES / Graph 到候選藥物
在具備了可靠的分子表徵與性質預測模型之後,更進一步的目標是 主動生成“更好”的分子 :不再只是評估給定化合物,而是圍繞靶點與性質約束,直接設計出新的候選分子。這一方向通常被稱為 分子生成與分子優化 。
在結構生成方面,研究與工程實踐主要圍繞三類路徑:
- 基於 SMILES 的序列生成 將分子視作字符串,使用 VAE、GAN 或自迴歸 Transformer 在 SMILES 空間中採樣新結構;通過語法約束(如 SELFIES)或後處理保證化學有效性。
- 基於圖 / 片段的生成 GraphVAE、Junction Tree VAE、GraphAF 等模型直接在分子圖或基元片段(Fragement / Motif)層面構造結構,更貼近化學合成思維,有利於控制環、基團與骨架結構。
- 基於擴散與 3D 生成 Diffusion for Molecules 等方法在圖或 3D 座標空間進行擴散與去噪,可同時考慮空間構象,適用於生成對 3D 形狀敏感的配體或材料單元。
在分子優化方面,關鍵是引入 目標與約束 :
- 條件生成 :把目標活性、理化性質或片段錨定作為條件向量輸入模型,使其在生成時偏向滿足這些條件。
- 強化學習與多目標優化 :以性質預測模型為“環境”,用 RL 在分子空間中做序列決策(如 MolDQN),在活性、毒性、合成可行性、專利風險等多維指標上設置獎勵與懲罰,實現多目標權衡。
- 合成可行性與化學先驗 :在生成與優化過程中融入合成路徑預測模型、合成複雜度指標(如 SA score),避免產生難以合成或不穩定的結構。
在產品化上,這一類模型常被封裝進藥企內部的“AI 藥物設計平臺”中:給定靶點、已知先導結構和優化方向,平臺自動提出若干批次候選分子,項目組再結合實驗、專利和商業考量逐步篩選與迭代,實現“模型–實驗–模型”的閉環優化。
10.2 蛋白質與生物結構建模(Protein & Structural Biology)
在生命科學中,結構決定功能 是一條近乎教條的原則:蛋白質如何摺疊成三維結構、如何與其他分子裝配成複合物,直接決定了其在細胞中的功能表現。傳統結構解析依賴 X‑ray 晶體學、NMR、冷凍電鏡等實驗手段,週期長、成本高且存在“難結晶、難解析”的巨大盲區。以 AlphaFold 為代表的深度學習模型,把“從序列直接到結構”的能力大幅推前,使得在全基因組尺度上獲得高質量結構成為可能。
這一方向一端連接 UniProt / PDB 等序列與結構數據庫、組學實驗與結構組學項目,另一端連接生物製藥、合成生物學、酶工程等產業界的結構設計與分析平臺。下面同樣從 場景 、 原理 、模型 三個角度展開,並進一步拆分關鍵子方向。
- 場景
- 靶點結構註釋與篩選:在基因組層面預測大量蛋白的結構,輔助靶點發現、功能註釋與通路分析;結合變異信息評估潛在致病機理。
- 抗體 / 蛋白藥物設計:對抗體可變區(CDR)、受體結合結構域等關鍵區域進行精細建模與設計,優化親和力、特異性和免疫原性。
- 酶與生物催化設計:基於酶三維結構和活性位點環境,設計突變與變體庫,提升催化效率、底物範圍與穩定性。
- 複合物與相互作用研究:預測蛋白–蛋白、蛋白–核酸、蛋白–小分子複合物結構,解析界面互作模式,為藥物設計與信號通路建模提供基礎。
- 突變效應與耐藥性分析:評估自然變異或人工突變對結構穩定性、功能和配體結合的影響,分析耐藥突變的結構基礎。
- 原理
- 蛋白質結構預測:
- 序列 → 結構 :從氨基酸序列(單序列或包含多序列對齊 MSA)出發,建模殘基兩兩之間的幾何約束(距離、角度、接觸圖),再通過幾何重建模塊生成全原子 3D 結構。
- 協同進化信號 :利用同源序列之間的協同突變模式(co‑evolution),推斷潛在的殘基接觸關係,為摺疊約束提供強先驗。
- 結構精修與不確定性估計 :對預測結構進行局部精修(relax、repack),並輸出置信度評分(如 pLDDT、PAE),指導後續應用中的“可信區域”選擇。
- 複合物與分子裝配建模:
- 多鏈聯合建模 :將多個蛋白鏈或蛋白 + 核酸序列作為輸入,引入鏈識別與接口約束,直接輸出完整複合物結構。
- 界面預測與裝配 :基於已知單體結構,通過圖模型或擴散模型預測最可能的界面構型與裝配方式。
- 蛋白設計與突變效應預測:
- 反向摺疊(Inverse Folding) :給定三維骨架結構或拓撲約束,生成能穩定摺疊成該結構的氨基酸序列,實現 de novo 蛋白設計。
- 突變效應建模 :結合蛋白語言模型與結構模型,預測特定突變對穩定性(ΔΔG)、活性或結合親和力的影響,輔助定向進化與變體篩選。
- 蛋白質結構預測:
- 模型
- 結構預測:
- AlphaFold / AlphaFold2 / AlphaFold3:以注意力機制和幾何模塊為核心,從 MSA、模板結構與序列特徵中預測高精度蛋白結構,並輸出不確定性估計。
- RoseTTAFold、OpenFold:採用多軌道(sequence / pair / structure)表示與多尺度注意力機制,為開源與產業化落地提供基礎實現。
- 複合物與界面建模:
- AlphaFold‑Multimer:在多鏈場景下直接建模蛋白–蛋白複合物結構,兼顧單體摺疊與界面互作。
- RFdiffusion:基於擴散模型在 3D 空間生成或優化蛋白骨架與複合物接口,實現複雜裝配與對稱體設計。
- DiffDock 等方法:在蛋白–小分子系統中,用擴散或深度打分函數預測 Binding Pose 與結合模式。
- 設計與突變模型:
- ProteinMPNN:在給定結構的條件下生成兼容的序列,用於穩定骨架與界面設計。
- ESM‑IF、ESMFold / ESM‑2 系列:基於大規模蛋白序列預訓練的語言模型,具備從序列推斷結構、功能與突變效應的能力。
- 產品與應用:
- 公有云上的蛋白結構預測服務與數據庫(如 AlphaFold DB),為科研提供大規模結構註釋與下載接口。
- 生物製藥公司內部結構設計平臺:集成蛋白結構預測、抗體設計、酶工程、蛋白–配體對接等模塊。
- 生物技術 SaaS:提供結合位點預測、界面熱力學評估、親和力與免疫原性評估工具,服務於抗體藥物、生物製劑開發。
- 結構預測:
從這一子方向開始,AI 不僅在“解讀”自然存在的蛋白結構,更在“創造”全新的蛋白與複合物架構,使結構生物學從“被動測量時代”進入“主動設計時代”。
10.2.1 蛋白質結構預測與複合物裝配
蛋白質結構預測是結構生物學與 AI 結合最具代表性的突破之一。其核心問題是:能否從序列出發,在不依賴或少依賴實驗數據的情況下,預測出接近實驗分辨率的 3D 結構? 而在真實應用中,單體結構往往只是起點,更關鍵的是蛋白如何與其他分子裝配成複合物。
在 單體結構預測 中,典型流程包括:
- 序列 / MSA 編碼 :通過序列特徵提取和多序列對齊挖掘協同進化信號。
- 幾何約束推斷 :預測殘基對之間的距離分佈、接觸概率與相對取向,形成“偽測量”的幾何場。
- 結構構建與迭代精修 :在幾何約束下用結構模塊(如旋轉平移不變塊、內座標更新)構建 3D 結構,並多次迭代 refinement 以降低幾何違背。
- 不確定性與質量評估 :輸出逐殘基置信度(pLDDT)、殘基對誤差估計(PAE)等指標,為後續建模與篩選提供參考。
在 複合物與裝配預測 中,問題進一步擴展為“多條鏈如何在空間中組織與相互作用”:
- 對於 蛋白–蛋白複合物 ,通常在多鏈輸入的基礎上,使用專門的多鏈建模策略(如 AlphaFold‑Multimer)直接輸出裝配結構。
- 對於 蛋白–核酸 / 蛋白–小分子體系 ,一類路徑是先預測各自結構,再通過對接與界面打分函數預測裝配方式;另一類則是用擴散模型或聯合建模在 3D 空間內直接生成複合物構象。
- 在多亞基、大型裝配體場景中,還需要結合對稱性約束、低分辨率 EM 密度圖等信息,進行分層與多尺度裝配。
在產品實踐中,結構預測與裝配常被封裝為雲端服務或本地工具鏈,為蛋白功能註釋、相互作用網絡建模、藥物靶點驗證提供基礎結構信息。
10.2.2 蛋白設計與突變效應預測:從結構到功能調控
在掌握“序列 → 結構”的映射之後,下一步是反向問題:如何在給定結構或功能需求的情況下,設計出合適的蛋白序列與突變方案? 這就是蛋白設計與突變效應預測的核心。
在 蛋白設計 中,關鍵任務包括:
- 反向摺疊(Inverse Folding) :給定目標骨架(backbone)或整體拓撲結構,生成能夠穩定摺疊成該結構的氨基酸序列,這一過程可通過 ProteinMPNN、ESM‑IF 等結構條件生成模型實現。
- 功能導向設計 :在保持整體結構穩定的前提下,針對活性位點、結合口袋、界面區域進行定向設計,優化親和力、特異性與催化效率。
- 可製造性與免疫原性約束 :在序列設計過程中,引入表達可行性、翻譯後修飾、免疫原性風險等約束,保證候選序列在生物製劑開發中的可落地性。
在 突變效應預測 中,關注的是:
- 穩定性變化(ΔΔG) :給定野生型結構與突變位點,預測單點或多點突變對摺疊穩定性的影響,用於定向進化和耐藥突變分析。
- 活性與親和力變化 :結合結構與蛋白語言模型,評估突變對酶學活性、配體親和力與信號通路調控的影響。
- 大規模變體庫設計 :在體內 / 體外篩選實驗之前,用模型對龐大突變空間進行預篩選,保留高潛力變體,降低實驗成本。
在工程與產品層面,蛋白設計與突變效應預測常被集成為生物製藥 / 合成生物學公司內部的“結構設計與優化模塊”:從候選骨架結構出發,自動提出多輪突變與變體庫設計方案,與高通量篩選實驗形成數據驅動的閉環。
10.3 物理仿真與加速計算(Physics Simulation & Surrogate Modeling)
在航空航天、汽車、土木工程、能源、化工等領域, 高精度仿真是設計與驗證的核心環節 。然而 CFD(計算流體力學)、FEA(有限元分析)、分子動力學(MD)以及各類 PDE 求解往往計算昂貴,難以支持大規模參數掃描、實時控制或在線優化。AI 驅動的物理仿真與代理建模,試圖用深度網絡來近似數值求解器或算子本身,在保證物理一致性和可解釋性的前提下,實現數量級的加速。
這一方向一端連接傳統仿真軟件(ANSYS、Fluent、COMSOL、自研求解器)、實驗測量與傳感器數據,另一端連接工程設計平臺、自動駕駛與航天氣動設計、化工過程模擬與優化系統。下面從 場景 、 原理 、模型 三個角度展開。
- 場景
- 工程仿真加速:在給定幾何與工況下,用深度代理模型快速預測壓力場、速度場、溫度場、應力 / 應變分佈等,為多輪設計迭代和優化提供支持。
- 複雜過程模擬與工藝優化:在化工、能源等流程工業中,通過 ML 近似機理模型或黑箱過程模型,實現快速評估與實時控制。
- 分子 / 材料尺度模擬:用 ML 勢能面(Neural Network Potential)替代高成本的 ab initio 勢能與力計算,加速分子動力學與材料相行為模擬。
- 多尺度與跨學科耦合:通過深度代理模型把微觀–中觀–宏觀模型拼接起來,構建端到端的多尺度仿真與優化鏈路。
- 原理
- 替代模型 / 代理模型(Surrogate Models):
- 從數值仿真或實驗數據中學習“輸入參數 → 輸出場 / 指標”的映射,作為高保真求解器的近似。
- 在高維參數空間下,結合主動學習與貝葉斯優化,自動選擇最有信息量的樣本點進行高保真仿真或實驗,持續提高代理模型質量。
- 物理知曉神經網絡(PINN):
- 將 PDE、初始 / 邊界條件與物理守恆定律寫入損失函數,利用自動微分技術在連續空間上求解物理場。
- 支持正向問題(求解狀態場)與逆問題(由稀疏觀測反推源項、材料參數等),特別適用於傳統數值方法難以處理的複雜幾何與邊界。
- 算子學習與 Neural Operator:
- 不只擬合“具體條件下的解”,而是學習從函數到函數的映射(算子),如“邊界條件 / 源項 → 整個解場”。
- 代表方法如 Fourier Neural Operator (FNO)、DeepONet 等,通過頻域變換或特定網絡架構,提升對不同網格密度與幾何形狀的泛化能力。
- 多尺度建模:
- 在微觀模擬數據上訓練中觀 / 宏觀層級的有效參數或本構關係,由深度代理模型承擔“尺度橋接層”角色。
- 對複雜材料、流固耦合與多相流等問題,用深度模型在不同尺度與物理模塊間傳遞信息。
- 替代模型 / 代理模型(Surrogate Models):
- 模型
- 通用物理神經網絡:
- PINN 系列:通過在時空域採樣點上最小化 PDE 殘差來求解,適用於 Navier‑Stokes、Maxwell、彈性力學等方程。
- DeepONet、FNO、Neural Operator 家族:直接學習 PDE 求解器的“算子級”近似,在多工況、多幾何下快速推理。
- 分子 / 材料尺度勢能模型:
- DeepMD、SchNet、NequIP、SpookyNet 等:構建高精度 ML 勢能面,在接近 ab initio 準確度的前提下,大幅加速力與能量計算。
- 與傳統 MD 引擎耦合,實現大體系、長時間尺度的高精度分子動力學。
- CFD / 結構力學代理模型:
- U‑Net / UNet++ 等 Encoder‑Decoder 網絡:在規則網格上從幾何 / 邊界條件預測流場或溫度場。
- 圖神經網絡 on Mesh:在非結構化網格上對節點 / 單元進行消息傳遞與更新,適合複雜幾何和多物理場耦合場景。
- Neural Operator for CFD:在不同雷諾數、來流條件、幾何參數下泛化流場預測。
- 產品與應用:
- 工業仿真軟件中的 AI 加速模塊:在傳統求解器外層提供快速預估和敏感性分析功能。
- 化工 / 能源過程模擬與優化平臺:把機理模型 + 代理模型 + 優化算法組合成一體化工藝優化工具。
- 自動駕駛 / 航空航天氣動設計:在氣動外形設計中進行大規模設計變量掃描與自動形狀優化。
- 通用物理神經網絡:
10.3.1 替代模型與物理知曉神經網絡(PINN)
替代模型(Surrogate Models) 與 物理知曉 神經網絡 (PINN) 是物理仿真 AI 化的兩條互補路徑:前者從數據出發近似仿真映射,後者從物理出發構造學習目標。
在 替代模型 場景中,典型流程是:
- 通過高保真數值仿真或實驗採集一批樣本數據(輸入參數、邊界條件、幾何 → 輸出物理量)。
- 訓練深度網絡(如 MLP、卷積網絡、GNN、Neural Operator)近似這一映射函數。
- 在設計優化、參數掃描或實時控制中,用代理模型替代昂貴的求解器進行快速評估。
在 PINN 場景中,模型不再以大量監督標籤為主,而是通過最小化 PDE 殘差與邊界條件違背構建損失函數:
- 在空間 / 時間採樣點上,用神經網絡輸出物理量(如速度、壓力、位移場等),自動微分得到梯度與導數。
- 將這些導數代入 PDE 中,形成殘差,並與邊界條件、初始條件的誤差一起構成總損失。
- 通過優化使 PDE 殘差與邊界誤差儘可能接近 0,從而得到滿足物理方程的近似解。
兩者可以結合使用:在有部分高保真數據時,用數據誤差 + 物理殘差共同約束訓練,提高精度與泛化能力。在工程應用中,PINN 特別適合處理逆問題與數據驅動建模,如從傳感器觀測反推材料參數、源項或缺陷位置。
10.3.2 Neural Operator 與多尺度物理建模
Neural Operator 將物理建模從“點到點 / 參數到解”的映射提升到“函數到函數”的層面:它學習的是“給定一類 PDE 與邊界條件,求解其解場”的統一算子近似,而非單一工況下的特定解。這為多工況、多幾何與跨網格分辨率的泛化提供了新的可能。
在 算子學習 中,典型做法是:
- 以函數(如源項、邊界條件、材料參數場等)作為輸入,用網絡(如 FNO、DeepONet)輸出整個解場函數。
- 通過在不同網格、不同參數與不同幾何上的樣本訓練,讓模型學習到 PDE 求解器的“公共模式”。
- 部署時,只需給出新的輸入函數(如新的邊界條件、幾何),就能快速推理得到近似解場。
在 多尺度建模 場景中:
- 在微觀尺度(如分子動力學、晶體塑性)產生的大量數據上訓練 Neural Operator,學習微觀結構與宏觀響應之間的映射。
- 在宏觀連續介質模型中,用這一映射作為本構關係或有效參數計算模塊,實現微–宏耦合。
- 對於流固耦合、多相流、反應流等複雜系統,可以對不同物理場分別建模並通過共享接口變量(如通量、界面力等)耦合。
在工程實踐中,Neural Operator 逐漸從研究原型走向應用,成為 CFD、地球物理、氣候建模等場景中“加速求解器 + 多尺度橋接”的重要技術方向。
10.4 材料發現與晶體設計(Materials Science & Crystal Design)
在材料科學中,一個核心矛盾是: 設計空間幾乎無窮大,而實驗與高精度計算成本極高 。如何在巨大的化學與結構組合空間中高效地找到滿足特定性能要求的候選材料,是新能源、電子、結構、功能材料等領域的關鍵問題。AI 驅動的材料發現與晶體設計,通過圖神經網絡、生成模型與高通量虛擬篩選,將“試錯式”研發逐步轉向“數據驅動 + 逆設計”。
這一方向一端連接 Materials Project、OQMD、AFLOW 等材料數據庫與 DFT / MD 計算結果,另一端連接電池、光伏、催化、半導體、合金等應用場景的材料研發平臺。下面從 場景 、 原理 、模型 三個角度展開。
- 場景
- 性能導向的材料篩選:給定晶體結構或化學式,預測能帶結構、帶隙、載流子遷移率、熱 / 電 / 磁性質等,為材料篩選與組合優化提供依據。
- 新能源材料研發:面向電池電解質、電極材料、固態離子導體、光伏吸收層與催化劑等體系,預測離子電導率、穩定性、電化學窗口與活性等。
- 高通量虛擬篩選(HTVS):在構建的大規模候選庫中,通過 ML 模型快速評估,篩出潛力材料,再用少量 DFT / 實驗驗證與校準。
- 晶體結構與成分逆設計:從目標性質出發,反向搜索滿足性能與工藝約束的晶體結構 / 成分組合。
- 原理
- 材料與晶體表示:
- 將週期性晶體結構表示為晶體圖(Crystal Graph):節點為原子,邊為原子間近鄰關係,結合晶格參數與空間群信息。
- 對於非晶或複雜多相材料,可通過局部環境描述符(如 SOAP)、Voronoi 特徵或多尺度圖結構表示其微結構。
- 性質預測:
- 在 CGCNN、MEGNet、ALIGNN 等 GNN 模型上對晶體圖進行卷積 / 消息傳遞,預測能量、帶隙、彈性模量、熱導等。
- 利用 Mat2Vec 等基於文獻和化學式的嵌入,在低數據場景下實現遷移學習與零樣本估計。
- 高通量虛擬篩選:
- 構建候選庫(通過組合枚舉、結構生成、經驗規則等) → 使用 ML 模型快速預測性質 → 篩選出少量 Top 候選進行 DFT 或實驗校準 → 更新模型與篩選策略,形成主動學習閉環。
- 生成與逆設計:
- 利用擴散模型、VAE 或 GNN 生成模型在晶體結構空間採樣新結構,可施加成分、空間群、密度等約束。
- 結合代理模型與貝葉斯優化,從目標性質出發搜索合適的結構 / 成分組合,實現 inverse design。
- 材料與晶體表示:
- 模型
- 表徵與預測:
- CGCNN(Crystal Graph Convolutional Neural Network):在晶體圖上進行卷積,用於能量、帶隙等無機材料性質預測。
- MEGNet、ALIGNN:融合圖結構與邊 / 角度信息,在多種材料家族上具備更強的泛化與精度。
- Mat2Vec + 輕量 ML:通過對化學式和元素信息的向量化,快速訓練用於特定性質預測的小模型。
- 生成與逆設計:
- Diffusion for Crystals:在晶格參數與原子位置組成的高維空間中進行擴散 / 去噪,生成滿足一定約束的晶體結構。
- GNN‑based Generative Models:通過逐步添加 / 修改原子和鍵或操作晶格,實現從隨機初始化到目標性質附近的結構搜索。
- Surrogate + Bayesian Optimization:用 ML 模型作為“結構 → 性質”的近似黑箱,在其上做貝葉斯優化,尋找最優結構或成分。
- 數據平臺與工具鏈:
- Materials Project、OQMD、AFLOW:提供大量結構與 DFT 計算數據,是訓練與評估材料 ML 模型的基礎。
- 企業內部材料數據庫與模型:結合公司實驗數據與工藝信息,構建領域特化的材料 AI 設計平臺。
- 產品與應用:
- 新能源材料研發加速平臺:為電池、電催化、光伏等團隊提供一體化的性質預測、HTVS 與 inverse design 能力。
- 虛擬篩選軟件與 SaaS:為合金、半導體、功能陶瓷等提供數字化篩選工具,減少早期試錯成本。
- 材料公司內部的 AI 設計工具:與實驗室信息管理系統(LIMS)與生產線數據對接,形成從“模型 → 實驗 → 生產”的閉環。
- 表徵與預測:
10.4.1 材料性質預測與高通量虛擬篩選(HTVS)
在材料研發流程中,快速而可靠的性質預測 是一項基礎能力:給定一個候選結構或成分,能否在不做昂貴 DFT / 實驗的情況下,大致判斷其是否值得深入探索。基於 GNN 與材料數據庫的性質預測模型,為高通量虛擬篩選提供了可能。
在 性質預測 層面:
- 使用晶體圖表示週期性結構,通過 CGCNN、MEGNet、ALIGNN 等模型學習原子與鄰域間的相互作用。
- 針對不同任務(能量、帶隙、彈性常數、熱導、電導、磁性等)進行單任務或多任務訓練,在 Materials Project 等數據集上達到接近 DFT 精度的預測性能。
- 在工業場景中,常結合內部實驗數據進行再訓練或領域自適應,以提升對特定材料家族與工藝條件的適配度。
在 高通量虛擬篩選(HTVS) 場景中,典型流程為:
- 構建大規模候選庫(組合枚舉、結構生成或從現有數據庫擴展)。
- 使用 ML 模型快速預測每個候選的目標性質與輔助性質(穩定性、安全性、成本相關指標等)。
- 按目標性質與多約束條件篩選排名,選出 Top‑K 候選進行高保真 DFT 計算或實驗驗證。
- 將驗證結果反哺模型,更新參數與不確定性估計,形成“篩選–驗證–再篩選”的主動學習閉環。
這一工作流在電池材料、光伏吸收層、催化劑與結構材料等多個領域已進入實用階段,成為材料研發團隊的“前置篩選引擎”。
10.4.2 晶體生成與逆設計:從目標性質到候選結構
在具備了可靠的性質預測與 HTVS 能力之後,更進一步的目標是 直接從目標性質與約束出發,提出新的晶體結構與成分候選 ,即材料的逆設計與生成。
在 晶體生成 中,關鍵問題包括:
- 如何在週期性約束下生成物理合理的晶格與原子排列?
- 如何在生成過程中顯式或隱式地施加成分、對稱性與密度等約束?
- 如何保證生成結構在經過簡單鬆弛後依然穩定?
為此,研究與工程實踐常採用:
- Diffusion for Crystals :在晶格參數 + 原子位置的聯合空間中添加 / 去除噪聲,實現從隨機初始到結構樣本的漸進生成,可在噪聲過程或條件向量中融入目標性質與成分約束。
- GNN ‑based Generative Models :在圖結構上逐步添加原子與連接關係,或對已有結構進行編輯,生成滿足約束的候選結構。
在 逆設計 中,通常與代理模型與優化方法結合:
- 將性質預測模型視作“結構 → 性質”的黑箱函數。
- 通過貝葉斯優化、進化算法或 RL 在結構空間中探索,使預測性質逐步逼近目標值,同時滿足穩定性、安全性、成本等約束。
- 對搜索得到的候選結構進行 DFT / 實驗驗證,並將結果用於更新代理模型與搜索策略。
在工程應用中,逆設計模塊往往被集成到材料 AI 平臺中,為研發人員提供“設定目標性質 → 系統自動提出候選結構”的交互界面,顯著提升新材料探索的效率。
10.5 數學與符號推理(Mathematics & Symbolic Reasoning)
數學是高度形式化、可精確驗證的語言,這讓它在 AI 時代同時具備“難度極高”和“潛在回報巨大”兩種屬性。一方面,複雜的定理證明與高階推理對模型能力提出了極高要求;另一方面,數學推理與符號計算的結果可以被嚴格驗證,天然適合與程序化工具協同。AI 在數學與符號推理方向的目標,是構建能夠在形式系統中進行可靠推理與計算的模型,並將其融入教育、科研與工程應用。
這一方向一端連接 Lean / Coq / Isabelle 等交互式定理證明器,SymPy / Mathematica / Maple 等計算機代數系統(CAS),以及大型數學題庫與文獻語料;另一端連接數學教育產品、輔助研究工具與工程 / 金融等領域的公式推導與風險分析需求。下面從 場景 、 原理 、模型 三個角度展開。
- 場景
- 自動定理證明與輔助證明:在形式化系統中自動給出定理證明,或生成可讀的證明草稿,由人類進一步審閱與完善。
- 表達式操作與符號計算:自動化簡表達式、求導、積分、級數展開、變換與方程求解,為工程建模與金融風險分析提供符號工具。
- 數學題理解與解題步驟生成:從自然語言或圖片中的題目提取結構化表示,給出嚴謹、可檢查的解題步驟,服務於教育與訓練場景。
- 數學推理能力增強:通過數學專向微調與工具增強,提高大模型在算術、代數、幾何、組合等領域的多步推理與嚴謹性。
- 原理
- 形式系統與搜索:
- 在 Lean / Coq / Isabelle 等系統內,數學對象與定理被形式化為項與類型,證明過程對應於在規則約束下構建證明樹。
- 證明搜索可以視為“在極大狀態空間中尋找滿足約束的路徑”,適合採用強化學習、MCTS(蒙特卡洛樹搜索)與策略網絡 / 價值網絡等方法。
- 神經 – 符號協同:
- LLM 負責從自然語言或非結構化輸入中提取問題結構與求解思路,將其翻譯為符號表達(如 SymPy 代碼、Lean 證明腳本)。
- 計算機代數系統與定理證明器負責執行嚴格的符號計算與形式驗證,對 LLM 輸出進行校驗與糾錯。
- 數學推理能力提升:
- 通過在大規模數學文本與題庫上做專向預訓練或微調(如 Minerva、Gödel),提升模型對數學語言的理解與推理風格的掌握。
- 採用 Tool‑Augmented LLM 框架,將符號求解器、數值計算庫、繪圖工具與證明器作為外部工具,讓模型在複雜推理中學會“調用工具”而非“死記結果”。
- 形式系統與搜索:
- 模型
- 自動定理證明:
- AlphaZero‑style 證明器:將證明進程視為博弈過程,使用策略網絡和價值網絡引導搜索,逐步構造形式證明。
- GPT‑f、Lean‑Dojo 等:在大規模形式化定理與證明語料上訓練,用於在 Lean 等系統中自動生成證明。
- 數學大模型與工具增強:
- Minerva、Gödel 等:在數學教材、論文、題庫等語料上微調的大模型,在證明題、競賽題和高階推理任務上表現更強。
- LLM + SymPy / Mathematica / Lean / Coq:由 LLM 做問題解析與策略規劃,調用符號計算與證明工具做精確操作與驗證。
- 產品與應用:
- 教育產品中的“數學助教 / 解題助手”,提供個性化講解與多種解法路徑。
- 輔助研究工具:幫助研究者構造猜想、生成證明草稿、搜索相關定理與引理,加速理論探索。
- 工程 / 金融領域的公式推導與風險模型分析:將複雜模型形式化,進行符號敏感性分析與合規性審查。
- 自動定理證明:
10.5.1 自動定理證明與形式化推理
自動定理證明(ATP)與交互式定理證明(ITP) 是數學與計算機科學交叉的重要方向。AI 介入這一領域的核心任務,是在形式系統中自動構造或輔助構造證明,減少人類在低層次細節上的負擔,使其更多地專注於高層次思路。
在 形式化系統 中:
- 定理被編碼為需要構造的目標類型(goal),證明對應為構造某個項,使其類型為該目標類型。
- 證明過程由一系列戰術(tactics)或推理步驟組成,每一步都在嚴格的邏輯規則下推進。
AI 在其中可以承擔多種角色:
- 戰術選擇與參數推薦 :在當前證明狀態下,預測下一步應使用的戰術及其參數,減少人工嘗試與回溯。
- 引理與定理檢索 :從龐大的庫中檢索與當前目標最相關的引理 / 定理,縮小搜索空間。
- 端到端證明生成 :在給定定理與上下文的情況下,直接生成完整或局部證明腳本,再由證明器驗證其正確性。
AlphaZero‑style 證明器、GPT‑f、Lean‑Dojo 等工作,通過在大規模形式化語料上訓練策略與價值網絡或語言模型,實現了在 Lean / Coq 等系統上自動完成相當比例定理的證明。在產品方向上,這類能力有望演化為“形式化驗證助手”,用於軟件 / 硬件驗證、加密協議分析和高可靠系統設計。
10.5.2 符號計算與數學問題求解:LLM + CAS
相比定理證明,符號計算與數學問題求解 更貼近工程與教育場景。其目標是: 從自然語言問題出發,自動構造符號表達、執行計算並給出可解釋的解題步驟 。
在這一方向上,典型的神經 – 符號協作流程為:
- 問題理解與抽象 :LLM 將自然語言或圖片中的題目解析為結構化數學表達(方程、約束、目標函數等)。
- 符號表達生成 :將抽象結果翻譯為 CAS 代碼(如 SymPy 表達式、Mathematica 命令)。
- **調用 **CAS** ** 執行 :使用 CAS 進行精確的代數運算、求導、積分、求解方程組、極限等。
- 結果解釋與步驟生成 :LLM 基於 CAS 的計算結果,生成符合人類習慣的解題步驟與解釋。
這一模式有幾個關鍵優勢:
- 通過 CAS 保障計算的正確性,避免 LLM 在長算式上的“錯位運算”與累積錯誤。
- 通過 LLM 提供自然語言理解與表達,降低 CAS 的使用門檻,使非專業用戶也能調用強大的符號工具。
- 在教育場景中,可以控制解題的詳細程度與風格,生成適合不同學習階段的講解。
在工程 / 金融場景中,這一能力可以擴展到複雜模型的公式化與分析:自動從文檔與代碼中提取模型結構,構造符號表示,並進行敏感性分析、邊界情況分析與風險識別。
10.6 科學工作流與自動化實驗(Scientific Workflow & Lab Automation)
前面的子方向大多聚焦於“單點能力”:預測一個性質、生成一個結構、證明一個定理。然而在真實的科研與工業研發中,更關鍵的是如何把這些能力串聯成完整的 工作流 ,並與文獻、數據庫、仿真平臺與自動化實驗設備打通。科學工作流與自動化實驗方向,旨在構建面向科學場景的 Agent + 工具 + 機器人 一體化系統,讓 AI 從“會算”進化到“會做實驗、會做研究”。
這一方向一端連接論文與專利數據庫(如 PubMed、arXiv)、科學數據倉庫、領域知識圖譜與仿真平臺,另一端連接自動化實驗室(Robotic Lab)、高通量篩選設備與科研流程管理系統。下面從 場景 、 原理 、模型 三個角度展開。
- 場景
- 科學文獻挖掘與知識庫構建:從海量論文中自動提取化合物、蛋白、材料、反應條件、實驗結果等信息,構建結構化知識庫與知識圖譜。
- 實驗設計與 Self‑Driving Lab:在 AI 提出的實驗計劃指導下,由機器人實驗平臺自動執行配製、反應、測量與數據採集,實現“閉環”優化。
- 科學數據管理與可重複性保障:自動整理仿真與實驗數據、元數據與代碼腳本,生成標準化實驗記錄與報告,提高可追溯性與復現性。
- 領域“AI 實驗助手”:為藥企、材料公司與科研機構提供一站式的文獻檢索、方案設計、實驗規劃與結果分析支持。
- 原理
- 文獻挖掘與領域 LLM:
- 利用 SciBERT、BioBERT、PubMedBERT 等領域預訓練模型進行命名實體識別、關係抽取、反應式解析與實驗條件抽取。
- 在此基礎上訓練 Bio‑LM、Chem‑LM、Materials‑LM 等領域 LLM,提升對專業術語、實驗語句與隱含假設的理解與推理能力。
- 實驗設計與 Self‑Driving Lab:
- 將實驗空間(配方、溫度、時間、添加順序等)視為優化變量,由 LLM + RL 或貝葉斯優化策略提出下一組實驗條件。
- 實驗機器人與儀器按照計劃執行,採集數據並實時回傳,由模型更新參數與不確定性估計,形成主動學習閉環。
- 工作流編排與 Agent:
- 在 Agent & Tool Use 框架下,將文獻檢索、代碼生成、仿真調用、數據分析、可視化與報告生成工具統一納入。
- Agent 根據任務目標(如“尋找高導電電解質配方”),自動規劃任務分解、調用工具順序與結果整合。
- 文獻挖掘與領域 LLM:
- 模型
- 文獻與知識挖掘模型:
- SciBERT、BioBERT、PubMedBERT 等:針對科學與生醫文獻進行預訓練的模型,用於實體 / 關係抽取、分類與問答。
- Galactica、領域特化 LLM:以科學語料為主進行訓練,支持綜述生成、代碼草稿、實驗設計建議等。
- 實驗規劃與控制模型:
- LLM + RL / Bayesian Optimization:結合領域先驗、模型不確定性與實驗成本,對實驗空間進行高效探索與 exploitation。
- 與 Robotic Lab 控制接口集成的 Agent:將自然語言實驗描述轉換為結構化實驗步驟與儀器控制命令。
- 科學 Agent 與工作流系統:
- 在 7 章 Agent & Tool Use 能力基礎上,構建面向科學場景的“多工具 Agent”:能夠檢索文獻、生成代碼、調用仿真、處理數據、繪製圖表並寫出報告初稿。
- 產品與應用:
- 藥企 / 材料公司內部的“AI 實驗助手”與自動化實驗臺:用於加速配方開發、工藝優化與候選篩選。
- 領域科學搜索引擎與知識圖譜(Bio / Chem / Materials / Physics Knowledge Graph):支持語義檢索、交互式探索與知識推理。
- 科研流程管理平臺:集成實驗規劃、數據記錄、版本管理、可視化與報告自動生成,提高科研團隊的效率與結果的可復現性。
- 文獻與知識挖掘模型:
10.6.1 科學文獻挖掘與領域知識庫構建
科學知識的絕大部分首先以論文與報告的形式出現。要讓 AI 真正參與科研,就必須讓其“讀得懂論文,並從中提煉結構化知識”。 科學文獻挖掘與知識庫構建 ,正是從非結構化文本出發,構建可查詢、可推理的知識基礎設施。
在這一方向中,核心任務包括:
- 實體識別與標準化 :識別文獻中的化合物、蛋白、材料、反應物、產物、實驗設備與條件等實體,並與標準數據庫(如 ChEMBL、Uniprot、Materials Project)對齊。
- 關係與事件抽取 :從文本中抽取“誰與誰如何相互作用”“什麼條件下產生了什麼結果”等關係與事件,例如反應方程、配方–性能對應關係等。
- 知識圖譜 構建 :將實體與關係組織為圖結構,支持複雜查詢(如“在某條件下提高某性能的所有已報道方法”)與路徑推理。
為實現上述目標,常採用:
- SciBERT、BioBERT、PubMedBERT 等預訓練模型進行 NER(實體識別)、RE(關係抽取)與文檔級事件抽取。
- 在此基礎上構建領域特化 LLM(Bio‑LM、Chem‑LM、Materials‑LM),用於進行更復雜的問題回答、綜述生成與知識補全。
構建好的領域知識庫與知識圖譜不僅可以為研發人員提供更智能的檢索與推薦服務,也為後續的實驗設計、材料 / 藥物逆設計提供數據與先驗支撐。
10.6.2 Self‑Driving Lab 與科學工作流 Agent:從“讀論文”到“做實驗”
在具備文獻挖掘、建模與優化能力之後,下一步就是把這些能力與 自動化實驗平臺 結合,構建真正意義上的 Self‑Driving Lab(自驅動實驗室) 與科學工作流 Agent。
在 Self‑Driving Lab 中,典型工作閉環為:
- 目標設定 :研究者給出宏觀目標(如“提高某材料在特定條件下的導電率”)與約束條件(成本、安全性、工藝限制等)。
- 文獻與知識檢索 :Agent 調用文獻檢索與知識圖譜,瞭解現有工作與經驗規律,形成初始假設與實驗設計空間。
- 實驗規劃與優化策略 :基於 LLM + RL / 貝葉斯優化策略,提出首批實驗條件(配方、溫度、時間、環境等)。
- 機器人執行與數據採集 :自動化實驗臺(Robotic Lab)執行實驗,實時採集結果並回傳。
- 模型更新與下一輪設計 :代理模型根據新數據更新參數與不確定性估計,再提出下一輪更有信息量或更有潛力的實驗條件。
在更廣義的 科學**工作流** Agent 中,這一閉環會擴展到仿真、數據分析與報告生成等環節:
- Agent 可以自動生成仿真代碼或調用現有仿真工具,對某些實驗條件進行前置評估;
- 在數據分析階段,自動完成數據清洗、可視化與統計檢驗;
- 在項目階段總結時,生成結構化的實驗記錄與報告草稿,附帶圖表與參考文獻。
在產品形態上,這類系統往往以平臺形式落地:提供一套統一的界面與 API,對接文獻庫、仿真引擎與實驗設備,讓科學家和工程師在高層用自然語言與可視化界面制定目標,其餘環節由 Agent + 工具鏈自動編排與執行。
從這一子方向開始,AI 在科學中的角色真正從“離線分析工具”轉向“在線科研合作者”:不僅能讀論文、寫代碼、算模型,更能與機器人一起,完成一項項真實的實驗與發現。
11. 平臺與工程能力(MLOps / Infra)
大模型從實驗室走向企業生產,絕不僅是“模型本身足夠好”就可以,而是要依託一整套穩定、可擴展、可運維的 平臺與工程體系 。這套體系需要貫穿模型的訓練與微調、部署與推理優化、數據與模型運維、監控與成本管理、安全與合規、以及中臺與應用支撐能力等環節,把原本零散的技術點串成一個可持續運轉的閉環。
從業務視角看,平臺與工程能力往往決定了一個組織是否能“規模化地、安全且低成本地”使用大模型:同樣的底層模型,如果沒有良好的 MLOps 體系,很可能只能停留在 Demo 與試點階段;而一旦具備完善的平臺,企業就能在多個 BU、多個國家 / 區域、多個行業場景中快速複製與演進高質量應用。下面我們將分別從模型訓練與微調平臺、部署與推理優化、數據與模型運維、監控與成本可靠性、安全與合規基礎設施、以及上層應用與中臺能力六個方向展開闡述
11.1 模型訓練與微調(Training & Fine-tuning)
在基礎模型層面,大部分組織不會從零開始訓練千億參數模型,而是基於開源或商用基座做 繼續預訓練 + 微調 。這一層的核心問題是:如何高效利用算力和數據,把通用大模型“拉近”到具體行業、企業和任務上,同時又要保證多模型、多版本的工程可管理性。
從工程視角看,這一層通常包含三塊: 預訓練與繼續預訓練 、微調**範式**與工具鏈以及大規模**分佈式** 訓練基礎設施 。
- 場景
- 通用大模型底座研發:雲廠商 / 大廠自研通用語言 / 多模態基座模型,用於對外 API 和內部多業務共享。
- 行業大模型與專有模型:圍繞金融、醫療、法律、製造、能源、遊戲等特定領域,構建行業基座模型或“企業自有大模型”。
- 企業級模型定製:為單一大客戶(銀行、保險、政府、製造集團等)基於其內部數據定製專屬微調模型或 LoRA 權重。
- 多租戶模型市場:SaaS / 雲平臺為眾多中小客戶提供“一客一模型”的微調與託管能力,每個租戶一套權重或適配層。
- 一鍵微調平臺:對非算法團隊開放的“上傳數據 → 選擇底座模型 → 自動微調 → 一鍵部署”全託管產品。
- 原理
- 預訓練與繼續預訓練:
- 在海量通用文本、代碼、多模態數據上進行大規模預訓練,使模型獲得 通用語言理解、世界知識與基本推理能力 。
- 對於特定行業,通過 Domain‑adaptive Pretraining(DAPT) 在通用模型之上繼續預訓練,引入行業專有術語、寫作風格和知識分佈。
- 多語言 / 多模態預訓練通過共享語義空間與聯合訓練,使模型具備跨語言遷移與圖文 / 語音 / 結構化數據融合能力。
- 微調範式:
- 全參數微調 :在目標任務與預訓練分佈差異極大、且有充足算力和數據時,直接更新全部參數,獲得最高上限性能。
- 參數高效微調(PEFT) :通過 Adapter、LoRA / QLoRA、Prefix / P‑Tuning 等方式,僅訓練極少量“增量參數”,適合多任務、多客戶、頻繁更新場景。
- 指令 微調與任務微調 :用“指令 + 示例”的方式讓模型學會理解自然語言任務描述;既可以面向單一垂直任務,也可以在統一模型上承載多任務。
- RLHF ** / RLAIF** :通過人類或 AI 反饋訓練獎勵模型,進一步用強化學習對齊模型行為(禮貌性、安全性、拒答策略、價值觀)。
- 分佈式訓練與工程體系:
- 使用 數據並行、模型並行、流水線 並行 、 張量**並行**等策略,將超大模型和大規模數據拆分至集群多節點、多卡協同訓練。
- 通過 ZeRO / FSDP 等技術降低**顯存** 佔用、提升訓練吞吐 ,配合高效調度(Kubernetes + Slurm / Ray)實現大規模集群訓練。
- 依託標準化的數據 pipeline(數據集加載、清洗、去重、分片、緩存)與微調框架(Transformers Trainer、DeepSpeed、Lightning 等)減少重複造輪子。
- 預訓練與繼續預訓練:
- 模型
- 預訓練與繼續預訓練工具鏈:
- 訓練框架:PyTorch、TensorFlow、JAX。
- 大規模訓練加速:DeepSpeed、Megatron‑LM、Colossal‑AI、Fairscale。
- 分佈式訓練策略:數據並行(DP)、模型並行(MP)、流水線並行(PP)、張量並行;ZeRO / FSDP、Megatron(TP+PP)、DeepSpeed ZeRO。
- 集群調度與管理:Kubernetes + Slurm / Ray / Horovod / TorchElastic。
- 數據 pipeline:Hugging Face Datasets、WebDataset、Petastorm、tf.data、Arrow;對象存儲(S3 / OSS / GCS)+ 本地 cache;數據清洗與去重工具。
- 微調與 PEFT 工具:
- 微調框架:Hugging Face Transformers + Trainer / Accelerate、PyTorch Lightning、DeepSpeed、Colossal‑AI。
- PEFT 工具集:PEFT(LoRA / QLoRA / Prefix Tuning / Prompt Tuning 等)、LLaMA‑Adapter 及各類 LoRA 工具鏈。
- 指令與數據構建:Self‑Instruct、Alpaca / Dolly 風格 pipeline,各類數據增強與對話重寫工具。
- RLHF / RLAIF 工具鏈:
- TRL(Transformers Reinforcement Learning)、trlx、DeepSpeed‑RLHF、自研 RLHF pipeline。
- 獎勵模型訓練、排序 / 評分模型、拒答策略與對齊策略模板。
- 預訓練與繼續預訓練工具鏈:
在產品形態上,這一層往往體現為: 模型底座研發平臺、企業級“代訓+定製”服務、一鍵微調平臺與模型市場(Model Hub / Model Store) ,支撐從“通用模型”到“千企千模”的生產化路徑。
11.1.1 預訓練與繼續預訓練:從通用能力到行業基座
預訓練是現代大模型能力的“源頭工程”:通過對海量未標註文本、代碼和多模態數據的自監督學習,模型逐漸獲得語言建模、世界知識、基本推理與表示學習能力。在此基礎上,繼續預訓練(特別是 Domain‑adaptive Pretraining, DAPT )則承擔了“把模型拉向某個垂直領域”的任務。
在通用預訓練階段,核心關注點包括:
- 語料規模與多樣性 :混合網頁文本、書籍、代碼、對話、多語種內容以及圖文對等多模態數據,儘可能覆蓋廣泛的知識與表達形式。
- 訓練目標與多任務混合 :除了經典的自迴歸語言建模外,有時會加入填空、下一句預測、對比學習、圖文對齊等目標,提升模型的語義對齊與多模態理解。
- 多語言與對齊 :通過共享詞表或子詞編碼,以及跨語種平行語料或對齊任務,使模型在統一向量空間中對不同語言進行建模,實現 跨語言遷移與翻譯 。
在行業繼續預訓練(DAPT) 階段,重點轉向:
- 行業語料構建 :從醫療病歷與指南、法律判決書與法規條文、金融研報與交易數據、製造 / 能源 / 遊戲設計文檔等渠道構建專有語料。
- 風格與術語適配 :通過大量領域內語料的繼續預訓練,使模型自然掌握行業術語、固定表達、專業寫作風格與隱性知識(如臨床表述習慣、法律措辭)。
- 企業級專有知識注入 :對於大型企業或機構,可在通用 + 行業語料之外進一步加入企業內部文檔、知識庫、工單記錄等,訓練“企業專有大模型”作為統一智能底座。
在工程實踐中,預訓練與繼續預訓練會配合大規模分佈式框架(Megatron‑LM、DeepSpeed ZeRO 等)以及高效的數據 pipeline(WebDataset / HF Datasets + 對象存儲)運行,形成 穩定可複用的訓練流水線 。對於雲廠商或大廠,這一流水線往往會被封裝為內部平臺,支持週期性增量預訓練和多行業基座並行迭代。
11.1.2 微調範式與 RLHF:從“能說話”到“懂業務、守邊界”
在擁有強大的預訓練基座之後,如何讓模型“對業務有用”並“行為可控”,關鍵在於微調與對齊階段。這裡既包括傳統意義上的監督微調(SFT),也包括指令微調、多任務微調和基於反饋的強化學習(RLHF / RLAIF)。
在微調範式層面,可以大致分為:
- 全參數微調(Full Fine‑tuning) 在任務分佈與預訓練差異很大,或對極致性能有剛性要求且算力充足的場景(如特定編程語言模型、特定語言 / 行業對話模型)中,直接更新全部參數可以獲得最大性能上限。但其成本高、版本管理複雜,一般只在少數核心模型上使用。
- 參數高效微調(PEFT) 通過 Adapter、LoRA / QLoRA、Prefix / P‑Tuning 等方法,僅對插入的“小塊增量參數”或權重低秩增量進行訓練,原始大模型權重保持凍結。這帶來了三點工程優勢:
- 多任務 / 多客戶可以共享同一基座,只切換不同的 Adapter / LoRA 權重。
- 顯著降低顯存與算力需求,支持在中小型 GPU 集群或單機環境中完成微調。
- 更新頻繁、回滾簡單,便於快速試錯與 A/B 實驗。
- 指令微調與任務微調
- 指令微調(Instruction Tuning) :通過“自然語言指令 + 輸入 + 期望輸出”的樣本,讓模型學會理解“幫我…”“請解釋…”等人類指令形式,從而擺脫任務特定模板。
- 單任務微調 :如僅針對客服問答、代碼補全、法律諮詢等垂直任務進行微調,最大化該任務表現。
- 多任務微調 :在統一模型上同時承載多種任務(問答、摘要、翻譯、代碼、推薦理由生成等),提升模型通用性和資源利用率。
在行為對齊與安全性層面,RLHF / RLAIF 起到關鍵作用:
- 獎勵模型(Reward Model)訓練 :收集人類或 AI 對模型多種候選回答的偏好(排序 / 打分),訓練一個能評估“回答好壞”的獎勵模型。
- 強化學習(如 PPO)優化基座模型 :在獎勵模型的指導下,通過強化學習調整模型參數,使其更符合人類偏好和平臺價值觀,例如:
- 更禮貌、中立、專業;
- 對危險、違規、隱私相關請求進行拒答或安全改寫;
- 在有不確定性時表明不確定,而非虛構事實。
- RLAIF 與自監督對齊 :在部分場景下,使用強基座模型作為反饋者,或結合規則與自動化評估,對微調過程進行半自動對齊,降低人工標註成本。
工具鏈方面,Hugging Face Transformers + PEFT、TRL / trlx、DeepSpeed‑RLHF 等框架,已經基本形成了從 SFT → RM 訓練 → RLHF 的標準工業工作流 。在產品定義上,這一層典型落地為:模型定製 / 代訓服務、一鍵微調平臺、多租戶模型市場與行業 / 企業專有大模型工程平臺 。
11.2 模型部署與推理(Serving & Optimization)
在訓練好大模型之後,如何以 高可用、 低延遲 、可擴展、可降本的方式提供推理服務,是 AI 工程體系的第二根支柱。部署與推理層一端連接 GPU / NPU 等算力集群,另一端連接 API 網關、企業應用和對外開放平臺,其核心職責包括: 部署架構設計、模型路由策略、推理性能優化與硬件利用 。
從整體來看,這一層要解決三個問題: 用什麼架構對外服務 、 如何讓推理更快更便宜 、 如何在多模型、多地域、多租戶環境下保持高可用與可治理 。
- 場景
- 企業內部 AI 中臺 / 模型服務總線:統一為各業務線提供大模型 API,屏蔽底層模型和硬件差異。
- 對外開放雲 API:向外部開發者與生態夥伴提供標準化的推理接口,支持多模型選擇與版本管理。
- 高 QPS 在線業務:客服助手、搜索、推薦、辦公助手等對延遲和穩定性要求極高的場景。
- 低成本離線生成:廣告 / 遊戲文案、知識庫生成、代碼批量重構等以吞吐與成本為主、對實時性要求不高的批處理任務。
- 跨地域、多集群部署:為全球或多區域用戶提供就近訪問,同時支持多雲或混合雲形態。
- 原理
- 部署架構與模型路由:
- 單模型服務 :在早期或簡單場景下,以一個主模型對外提供統一服務,架構簡單,但難以兼顧延遲與成本。
- 多模型服務與路由 :針對不同任務、延遲要求、成本約束、用戶等級等維度,配置不同大小或不同專長的模型,並通過規則或 Meta‑model 進行請求路由(包括 A/B 測試、多臂老虎機 / Bandit 策略等)。
- **多租戶隔離與 **SLA** ** 管理 :在多客戶場景中,通過資源配額、QPS 限制、訪問鑑權和 SLA 分級確保不同租戶之間在性能與安全上的隔離。
- 彈性擴容與高可用 :藉助 Kubernetes / Service Mesh 等基礎設施,實現自動擴縮容、多副本部署、灰度發佈、藍綠部署和跨區域容災。
- 推理性能優化:
- 模型壓縮與加速 :通過量化(INT8 / INT4 / NF4 / GPTQ / AWQ)、剪枝 / 稀疏化、知識蒸餾等手段減少模型計算量與顯存佔用。
- 系統級優化 :利用 KV Cache 緩存注意力鍵值,加速長對話與連續推理;通過批處理(Batching)、並行 token 生成和流式輸出平衡吞吐與延遲;通過算子融合和圖優化減少內存訪問和內核啟動開銷。
- 異構硬件利用 :針對 GPU、CPU、NPU、FPGA、ASIC 等不同硬件構建適配的 Runtime 與調度策略,在單機多卡、多機多卡場景下通過 NVLink / RDMA 等高速互聯提升整體效率。
- 工程與運維:
- 使用 vLLM、TGI、Triton 等專用推理框架,顯著降低自研成本。
- 通過 ONNX Runtime、TensorRT、TVM、OpenVINO 等編譯器與 Runtime 進行跨平臺部署與算子級優化。
- 藉助 Kubernetes、Ray、Service Mesh 和 API 網關構建統一的 在線推理集群與流量調度層 。
- 部署架構與模型路由:
- 模型
- Serving 框架與推理服務:
- vLLM、TGI(Text Generation Inference)、Triton Inference Server。
- Ray Serve、KServe、TorchServe、SageMaker Endpoint、Vertex AI Endpoint 等。
- 集群與調度:
- Kubernetes(K8s)、Kubeflow、Ray、Slurm。
- Service Mesh:Istio / Linkerd(支持灰度、限流、熔斷、回退等流量治理)。
- API 網關與鑑權:
- Kong、NGINX / APISIX / Envoy。
- IAM / Keycloak / Auth0、雲廠商 API Gateway、OAuth2 / OIDC 等。
- 模型壓縮與性能庫:
- 量化:NVIDIA TensorRT‑LLM / TensorRT、Intel Neural Compressor、OpenVINO(PTQ / QAT)、BitsAndBytes、GPTQ、AWQ、AutoGPTQ。
- 剪枝 / 稀疏:PyTorch Sparse、TensorFlow Model Optimization Toolkit、SparseML、Neural Magic。
- 蒸餾:DistilBERT / TinyBERT 等參考方案,或基於 Hugging Face Trainer + 自定義 distillation loss 的蒸餾 pipeline。
- 推理引擎 / Runtime 與圖優化:
- ONNX Runtime、TensorRT、OpenVINO Runtime、TVM、MNN、NCNN。
- 大模型專用推理引擎:Sglang、vLLM、FasterTransformer、TGI、LMDeploy、DeepSpeed‑Inference。
- 編譯與圖優化:TVM、XLA(JAX/TF)、TensorRT Graph Optimizer、TorchDynamo / TorchInductor、MLIR、Glow、ONNX Graph Optimizer、Intel NNCF 等。
- 硬件與異構支持:
- GPU:CUDA / cuDNN / cuBLAS、ROCm(AMD)。
- CPU:oneDNN(MKL‑DNN)、OpenBLAS、Eigen。
- NPU / 專用加速卡:Ascend CANN、Habana Gaudi、Graphcore IPU 等 SDK。
- Serving 框架與推理服務:
在產品側,這一層常以 企業 AI 中臺 / 模型服務總線、對外雲 ** API 、統一推理 網關 、高 **QPS** 在線推理集群、低成本**批處理**平臺與**算力**利用率優化方案** 的形態出現,是支撐大模型能力規模化落地的運行時“操作系統”。
11.2.1 部署架構與模型路由:從單模型到多模型服務網格
在早期嘗試階段,很多團隊會選擇以一個“大而全”的模型作為單一入口提供服務:所有請求都經由同一個模型處理。這種模式架構簡單、維護成本低,適合 POC 與低流量場景。但隨著業務擴展和成本壓力上升,單模型架構的不足會迅速暴露:
- 不同任務對延遲 / 成本 / 質量的要求並不相同,用同一個大模型處理所有請求會造成算力 浪費 。
- 面向不同行業、不同客戶需要提供差異化能力,例如行業專有模型、客戶專屬微調權重,很難在“單模型”模式下統一管理。
- 灰度發佈、A/B 測試、跨地域災備等場景要求能夠在多個模型版本之間靈活調度。
因此,成熟的大模型服務體系往往會演進為多模型服務與智能路由架構:
- 多模型池與模型目錄 :同時維護多種大小(small / base / large / ultra)、多種專長(通用 / 代碼 / 多模態 / 行業專用)、多種版本(v1 / v1.1 / 客戶定製等)的模型,並在服務層對其進行統一註冊與管理。
- 路由策略 :
- 規則路由 :基於請求參數(任務類型、用戶等級、延遲 / 成本偏好等)以及業務規則(某行業某區域強制使用特定模型)進行顯式選擇。
- 模型選擇器( Meta ‑model) :使用一個輕量級模型根據輸入內容、歷史效果、實時指標自動選擇最優模型(如快速小模型 vs. 慢速大模型)。
- A/B / Bandit 路由 :在新舊模型或不同配置之間進行在線實驗,根據 CTR、用戶滿意度、任務成功率等指標自動收斂到更優方案。
- 多租戶隔離與配額管理 :
- 在模型路由之上疊加租戶維度的配額控制、QPS 限制、訪問鑑權與 SLA 分級,確保不同客戶之間的資源與數據隔離。
- 通過邏輯隔離 + 物理隔離(獨佔集群或專用節點) n應對金融 / 醫療 / 政務等高合規場景。
- 彈性擴縮容與高可用 :
- 基於 Kubernetes HPA / VPA、Cluster Autoscaler 實現按流量自動擴縮容。
- 通過多副本部署、負載均衡、灰度發佈、藍綠部署和多區域容災保證服務穩定性。
技術上,往往會採用 **Kubernetes + Service Mesh(Istio / Linkerd)+ ****API** 網關 **(Kong / APISIX / ** Envoy )+ 模型服務框架(vLLM / TGI / Triton / Ray Serve / KServe) 的組合,形成一個既支持多模型、多租戶,又支持流量治理與灰度發佈的 服務網格化推理平臺 。
11.2.2 推理性能優化與硬件加速:把“推理一次多少錢”壓到最低
在大模型大規模商用場景中,推理成本往往是最大的持續支出之一。如何在保證體驗的前提下,將單位請求成本(Cost per Request / per Token)和端到端延遲壓縮到可接受範圍,是部署層的核心技術挑戰。
在 模型側 ,常見手段包括:
- 量化(Quantization) 通過將權重和激活從 FP16 / BF16 壓縮到 INT8 / INT4 / NF4 等低比特格式,顯著降低顯存佔用和帶寬開銷。
- 訓練後量化(PTQ):如 GPTQ、AWQ、BitsAndBytes 等,對已有模型進行離線量化。
- 量化感知訓練(QAT):在訓練 / 微調階段考慮量化誤差,提升量化後精度。
- 剪枝 與稀疏化( Pruning** & Sparsity)** 通過結構化 / 非結構化剪枝去除不重要的權重或通道,使模型稀疏化,並結合硬件友好的稀疏算子(如 NVIDIA 稀疏矩陣加速)提高推理速度。
- 蒸餾(Distillation) 使用大模型作為教師,將知識蒸餾到更小的學生模型或任務特定模型上,在大幅降低參數規模的同時保持接近的任務性能,適合對延遲極敏感的在線業務或邊緣部署。
在 系統與 Runtime 側 ,關鍵優化點包括:
- KV ** Cache 與長上下文優化** : 在自迴歸生成中緩存歷史 token 的注意力鍵值,避免重複計算,從而提高長對話與多輪請求的效率;結合分塊計算和動態裁剪策略控制顯存開銷。
- 批處理**與**並行 生成 : 通過對多個請求進行動態批處理、分組調度和並行 token 生成,在不顯著增加 P95 延遲的前提下提高整體吞吐;結合流式輸出(Streaming)改善前端交互體驗。
- 算子與圖優化 : 使用編譯器和 Runtime(如 TensorRT、TVM、ONNX Runtime、TorchInductor)進行算子融合、內存佈局優化、靜態圖編譯,減少 kernel 啟動和內存訪問開銷。
- 異構硬件調度 : 根據不同任務的計算特性與延遲要求,在 GPU、CPU、NPU、FPGA 等異構資源之間做合理分配:
- 極度延遲敏感和高併發的對話 / 搜索請求優先調度到 GPU / NPU。
- 批量生成、離線評估、日誌回放等任務可以調度到 CPU 或低成本 GPU / NPU。
工具與框架上,TensorRT‑LLM、SgLang、vLLM、FasterTransformer、LMDeploy、DeepSpeed‑Inference 等已經形成了一套相對成熟的大模型 推理加速生態 。在業務側,這些優化最終體現為:高 ** QPS 、 低延遲 的在線推理集群、低成本批量生成平臺、 算力**利用率優化方案與 MaaS / **API** ** 計費和成本核算系統** 。
11.3 數據與模型運維(Data / Model Ops)
大模型一旦進入生產環境,就不再是“一次性交付”的靜態資產,而是需要在數據、模型、配置、版本和實驗五個維度持續迭代的動態系統。數據與模型運維層(Data / Model Ops)就是圍繞這一現實構建的工程範式:從數據飛輪、模型生命週期管理到在線實驗和自動化發佈,為模型能力的可持續提升與可控演進提供基礎。
這一層一端連接數據湖 / 數倉、日誌與採集系統,另一端連接訓練平臺、評估體系和在線服務網關,是打通“數據–模型–業務反饋”閉環的中樞。
- 場景
- 企業級數據中臺 + 模型訓練一體化平臺:打通數據採集、清洗、標註、管理到訓練 / 微調的全鏈路,支撐多模型持續迭代。
- 面向 C 端 / B 端 AI 應用的“效果持續提升機制”:依賴用戶反饋和使用數據驅動的數據飛輪。
- 標註團隊與算法團隊共用的數據管理與標註工作臺:支持任務分配、質檢、版本回溯。
- 集團級 ModelOps 平臺:統一記錄和管理所有模型版本、評估結果與發佈狀態。
- 在線業務實驗與灰度體系:支持 A/B 測試、多模型小流量試運行和自動擇優放量。
- 模型託管服務:為合作伙伴 / 客戶提供“一處上傳,多環境部署,多版本管理”的模型管理能力。
- 原理
- 數據管理與數據飛輪:
- 數據採集與治理 :從業務日誌、用戶對話、公開數據、合作方數據中採集樣本,對其進行去重、降噪、脫敏、格式統一和質量評估。
- 標註與反饋閉環 :通過專家標註與眾包結合、配合質檢機制構建高質量標註數據;將用戶的點贊 / 點踩、糾錯、人工複核等反饋迴流至訓練樣本池。
- 數據飛輪(Data Flywheel) :模型上線後,持續收集真實使用數據 → 從中挑選高價值樣本(如模型錯誤、低信度、高收益任務)→ 再訓練或微調 → 模型效果提升 → 新一輪使用,形成正反饋循環。
- 模型生命週期與發佈:
- 模型版本管理 :為每個模型維護清晰的版本號(大小版本)、訓練數據版本、配置參數、評估結果、安全報告與變更記錄。
- CI/CD ** 與自動化流水線** :訓練完成後自動觸發評估與安全檢查,通過迴歸測試和閾值門控,只有在關鍵指標不過度退化的情況下才允許灰度發佈與全量上線。
- 實驗與流量分配 :使用 A/B 測試、多臂老虎機等在線實驗方法,對多版本模型進行對比,按實時業務指標(例如任務成功率、工單解決率、用戶滿意度)自動擇優。
- 數據管理與數據飛輪:
- 模型
- 數據湖與數倉:
- Delta Lake、Apache Hudi、Iceberg、Hive、BigQuery、Snowflake 等,用於統一存儲與管理大規模結構化 / 非結構化數據。
- 流式數據處理:
- Kafka、Pulsar、Flink、Spark Streaming 等,用於實時日誌、用戶對話和事件流接入。
- 特徵與樣本管理:
- Feast 等 Feature Store、自研樣本倉、ML Metadata Store,用於記錄樣本、特徵和訓練元數據。
- 標註與質檢平臺:
- Label Studio、Scale‑like 平臺、自研標註系統,支持多任務標註、質檢與人員管理。
- MLOps / ModelOps 平臺:
- MLflow、Kubeflow、SageMaker、Vertex AI、Azure ML、Weights & Biases 等,用於管理訓練實驗、參數、指標和模型 artifact。
- 模型註冊與版本管理:
- MLflow Model Registry、SageMaker Model Registry、W&B Artifacts 等。
- CI/CD 工具:
- GitHub Actions、GitLab CI、Jenkins、Argo CD、Flux 等,用於構建模型持續交付管線。
- 數據湖與數倉:
11.3.1 數據飛輪與訓練閉環:讓模型“越用越聰明”
在傳統軟件開發中,版本升級往往由開發計劃驅動;而在大模型時代,數據與反饋成為迭代的主要驅動力。數據飛輪的目標,就是把“模型使用 → 數據沉澱 → 再訓練 → 模型升級”變成一條自動滾動的閉環,讓模型在實際業務中 越用越好用 。
核心環節包括:
- 在線數據採集與篩選 在對話機器人、Copilot、搜索問答、代碼助手等應用中,每一次用戶交互都是潛在的高價值訓練樣本。通過日誌系統和事件追蹤,將請求、模型回答、用戶行為(點擊、採納與否)結構化採集下來,並在採集端就進行隱私脫敏與字段裁剪,確保不額外引入合規風險。
- 高價值樣本挖掘 在海量日誌中篩選出對訓練最有價值的一小部分樣本,例如:
- 明顯錯誤或被用戶點踩的回答,用於“糾錯式”再訓練。
- 高難度長問題、複雜工作流任務樣本,用於提升模型在“長鏈推理 / 多步工具調用”上的能力。
- 典型業務案例、高價值工單,用於構建行業 / 企業專有能力。
- 標註與質量控制 對候選樣本進行人工或半自動標註(包括期望回答、優劣排序、安全性標籤等),並通過多輪質檢、複核和抽檢手段確保標註質量,為後續 SFT 或 RLHF 提供可靠數據。
- 持續**再**訓練與評估上線 週期性地將新樣本加入訓練集,進行 SFT / DAPT / RLHF 等再訓練操作,並通過標準評測集和在線 A/B 實驗同時評估“離線指標 + 線上效果”,確保新版本在總體上優於舊版本,避免數據飛輪“拐到錯誤方向”。
在成熟形態下,數據飛輪的絕大部分操作會被自動化封裝進 Data / Model Ops 平臺 :從數據採集、樣本篩選、標註任務派發,到模型再訓練觸發、評估結果收集和上線決策,儘量減少人工操作,使模型迭代成為一個穩定可控的工程流程。
11.3.2 模型生命週期與 ModelOps:從實驗模型到生產資產
隨著模型數量與版本的指數級增長,如果缺乏嚴謹的生命週期管理,很容易出現“模型散落各處、版本混亂、回滾困難”等問題。ModelOps 的目標,就是把模型當作一等公民的工程資產來管理,全程可追溯、可比較、可回滾。
關鍵要點包括:
- 版本化與**元數據管理** 為每個模型分配明確的版本號(如
industry-legal-base-v1.2.3),並記錄:- 訓練數據版本與時間範圍;
- 訓練配置(超參數、訓練腳本版本、使用的代碼 Commit);
- 評估指標(通用基準 + 業務特定基準);
- 安全評估與對齊策略(如敏感話題回答策略版本);
- 上線 / 下線 / 回滾歷史記錄。
- 端到端自動化流水線( CI/CD** for Models)** 將“模型訓練完成 → 自動評估 → 安全與偏見檢查 → 灰度發佈 → 全量發佈”的流程封裝進 CI/CD 管線。
- 若離線評估指標未達到預設門檻,則自動阻斷上線。
- 若在線 A/B 實驗表現不佳,則自動降低流量或回滾到上一版本。
- 多版本共存與流量調度 在生產環境中,往往會同時存在多個模型版本(如
stable/canary/experimental),通過流量分配策略(固定比例、用戶維度、特徵維度)對其進行在線對比。- A/B 測試更關注穩定統計結論;
- 多臂老虎機(Multi‑armed Bandit)在探索與利用之間自動折中,加速收斂到效果更好的版本。
- 合規與審計支持 對於金融、醫療、政務等行業,需要對每一次模型版本變更保持可追溯記錄:誰在何時基於什麼數據把模型從哪個版本升級到哪個版本,以及升級後的影響評估如何。這部分通常與第 11.5 節中的安全與合規基礎設施聯動。
工程實現上,MLflow / SageMaker / Vertex AI / W&B 等工具已經提供了相對成熟的 ModelOps 能力,多數企業會在其基礎上結合自身流程做二次封裝,構建統一的 內部模型註冊中心與發佈平臺 。
11.4 監控、成本與可靠性(Monitoring, Cost & Reliability)
當大模型成為業務核心基礎設施時,如何保證其 可觀測、可預警、可擴縮、 可控成本 ,就成為 SRE 和平臺團隊的核心職責。監控、成本與可靠性層將傳統可觀測性體系與大模型特有指標結合,構建面向運維、算法與管理層的多維度視圖。
這一層一端連接監控採集、日誌 / 鏈路追蹤系統,另一端連接業務 KPI 與成本分析平臺,是保證模型服務“穩、快、省”的關鍵支柱。
- 場景
- 面向運維 / SRE 的運行監控大盤:統一展示 CPU / GPU 利用率、QPS、延遲、錯誤率、告警等。
- 面向算法團隊的數據與模型質量監控平臺:監控輸入數據分佈、模型漂移、提示工程效果與 RAG 命中率等。
- 面向管理層的服務健康看板:將業務 KPI(轉化率、滿意度、任務完成率)與模型指標綁定展示。
- AI 成本分析與優化平臺:按模型、項目、業務線拆解算力成本,支持預算管理與成本優化策略。
- 智能調度與彈性伸縮系統:根據負載與預算自動擴縮容或切換模型規格。
- 對外 MaaS / API 計費與成本核算系統:支撐按調用量、token 數、算力使用量等維度計費。
- 原理
- 監控與可觀測性:
- 多層監控 :從基礎設施層(CPU / GPU / 內存 / 網絡 / 存儲)到服務層(QPS、P50 / P95 / P99 延遲、錯誤率、超時重試),再到模型層(token 使用量、上下文長度分佈、響應長度、常見錯誤類型)。
- 日誌與鏈路追蹤 :通過結構化日誌記錄請求 / 響應(在脫敏前提下),並攜帶模型版本、路由決策、租戶信息;使用分佈式追蹤工具記錄請求從 API 網關 → 模型服務 → 下游系統的完整鏈路。
- 告警與分析 :設置閾值告警、異常檢測和趨勢分析,並與業務指標、成本和安全事件聯動,實現快速定位與恢復。
- 成本控制與彈性調度:
- 成本分析 :按模型、項目、業務線維度拆解 GPU / CPU / 存儲 / 帶寬成本,計算單請求平均成本和不同任務 / 客戶的邊際成本。
- 彈性調度 :運用峰谷分時策略,在高峰期自動擴容、低谷期自動縮容;將離線批量任務錯峰到夜間或低負載時段。
- 策略性降級與按需加速 :在資源緊張時自動切換到小模型、更短上下文或更保守的推理配置;對高價值請求自動使用更大模型或更長上下文。
- 監控與可觀測性:
- 模型
- 監控與可視化:
- Prometheus + Grafana、VictoriaMetrics、Thanos 等指標採集與可視化方案。
- 日誌系統:
- ELK(Elasticsearch + Logstash + Kibana)、EFK(Fluentd / Fluent Bit)、OpenSearch 等。
- 鏈路追蹤:
- OpenTelemetry、Jaeger、Zipkin 等。
- 模型特定監控:
- WhyLabs、Arize AI、Fiddler、Evidently AI 等,用於數據 / 模型漂移監控與輸出質量評估。
- 成本統計與分攤:
- K8s Metrics / Cost Exporter、Kubecost,以及各雲廠商 Cost Management 工具(AWS Cost Explorer / GCP Billing / Azure Cost Management)。
- 資源調度與彈性伸縮:
- K8s HPA / VPA、Cluster Autoscaler、Volcano、Ray Cluster Autoscaler。
- 任務編排:
- Argo Workflows、Airflow、Prefect、Dagster 等。
- 監控與可視化:
11.4.1 監控與可觀測性:從基礎設施到模型行為
在大模型系統中,傳統的 CPU / 內存 / QPS 指標已經不夠,需要疊加一層“模型視角”的監控,才能真正看清系統健康狀況。一個完整的可觀測性體系通常包含:
- 基礎設施與服務層監控 通過 Prometheus / Grafana、VictoriaMetrics 等採集並可視化:
- 節點 / Pod 級別的 CPU、GPU、內存、磁盤、網絡使用情況;
- 服務級別的 QPS、P50 / P95 / P99 延遲、錯誤率、超時重試比例、連接數;
- 集群級別的資源使用率與容量預警。
- 模型層指標監控 針對大模型服務,除了常規性能指標外,還需要專項監控:
- 每次請求的 token 消耗(輸入 / 輸出)、上下文長度分佈;
- 響應長度與截斷比例,以排查因上下文 / 輸出長度限制導致的質量問題;
- 常見錯誤類型統計(如超長輸入、模型超時、工具調用失敗等)。
- 日誌與**分佈式**鏈路追蹤
- 使用結構化日誌記錄請求參數(脫敏後)、模型版本、路由決策、租戶標識、返回代碼等信息。
- 藉助 OpenTelemetry、Jaeger、Zipkin 等追蹤一次請求在 API 網關 → 模型服務 → 下游系統 → 回調鏈路中的全程,便於定位延遲瓶頸和故障點。
- 異常檢測與智能告警 在傳統閾值告警基礎上,可以引入簡單的統計監控或機器學習模型,對 QPS、延遲、錯誤率、token 分佈等進行異常檢測,當出現突變時自動報警,並聯動自愈策略(如自動擴容、流量切換、服務降級)。
對於算法團隊,還可以在這一層接入 WhyLabs、Arize、Evidently AI 等工具,對輸入分佈、模型輸出特徵、漂移情況進行長期跟蹤,為後續數據飛輪與再訓練提供信號。
11.4.2 成本分析與彈性調度:在“體驗”和“預算”之間找平衡點
大模型服務最顯著的運維挑戰之一就是 成本高且波動大 。缺乏精細化的成本分析與彈性調度,很容易在業務增長時看不到“錢燒在哪兒”,也難以及時做出調整。一個成熟的成本和資源調度體系通常包括:
- 成本歸因**與**分攤 利用 Kubecost、雲廠商 Billing 工具以及自研賬本,將 GPU / CPU / 存儲 / 帶寬成本按模型、項目、業務線、租戶等維度拆解,讓每個團隊和客戶都能看到自己對應的真實資源消耗與費用。
- 單位請求成本與**邊際成本**分析
- 計算每個模型 / 任務的單請求平均成本(Cost per 1k tokens / per request),對比不同模型和配置下的性價比。
- 分析不同客戶、不同業務場景的邊際成本,為定價策略(API 計費)、SLA 分級和產品打包提供依據。
- 彈性擴縮容與峰谷利用
- 通過 K8s HPA / VPA、Cluster Autoscaler、Ray Autoscaler 等機制實現自動擴縮容,保證在高峰期不炸服、在低谷期不閒置。
- 將離線任務(如批量內容生成、日誌重放、離線評估)安排在夜間或非高峰時段,以提高整體 GPU 利用率,平滑成本曲線。
- 策略性降級與按需加速
- 在資源緊張或成本超預算時自動觸發降級策略:使用更小模型、縮短上下文或輸出、降低並行度。
- 對高價值請求(如付費高等級用戶、關鍵業務流程)自動使用更大模型、更長上下文或更豐富的工具調用能力,實現“按價值分配算力”。
在對外 API 場景,這一層還會與計費系統深度綁定,形成 MaaS / API 計費與成本核算平臺 :根據 token 使用量、調用次數、模型規格和請求類型進行計費,併為運營 / 銷售提供成本與毛利分析。
11.5 安全、權限與合規基礎設施(Security, Access Control & Compliance Infra)
大模型能力一旦進入金融、醫療、政務等高敏感行業,安全與合規不再是“附加價值”,而是進入場景的前置門檻。安全、權限與合規基礎設施層負責從訪問控制、數據安全、隱私保護到合規審計構建系統級防線,保證模型服務在法律與監管框架內可靠運行。
這一層一端連接身份認證、權限管理、密鑰與加密系統,另一端連接模型服務和日誌 / 審計平臺,是把“能用的模型”變成“敢用的模型”的關鍵。
- 場景
- 金融 / 醫療 / 政務等高合規行業的本地化大模型平臺:要求數據不出域、可審計、可追溯。
- 企業統一 AI 訪問控制與審計網關:對所有模型調用進行統一鑑權、權限管理和審計記錄。
- 多租戶 SaaS / 雲平臺:需要在邏輯和物理層面為不同客戶提供嚴格的安全隔離與合規支撐。
- 面向合作伙伴 / 生態的開放接口:要求對 API 調用進行精細化權限控制和配額限制,並滿足合規要求(如 GDPR 等)。
- 原理
- 訪問控制與租戶隔離:
- 使用 API Key / Token / OAuth / SSO 等方式進行身份認證。
- 通過 RBAC(基於角色的訪問控制)和 ABAC(基於屬性的訪問控制)在模型、功能、調用頻率和數據範圍等維度進行精細化權限管理。
- 在多租戶環境中實現數據、日誌、配置和模型權重的隔離,防止跨租戶訪問與信息洩露。
- 數據安全與隱私保護:
- 採用 TLS 加密傳輸、存儲加密和集中式密鑰管理(KMS)保障數據在傳輸與存儲環節的安全。
- 實施日誌脫敏和數據最小化策略,僅保留業務與優化所必需的信息,並對訪問行為進行審計。
- 在必要場景中引入隱私增強技術(如數據匿名化、差分隱私、聯邦學習)進一步降低隱私風險。
- 合規與審計:
- 對模型發佈、配置變更、權限變更、路由策略調整等關鍵操作進行全程留痕與審批。
- 為每一個請求記錄可追溯的元數據:請求來源、模型版本、決策依據(如使用的知識庫 / 工具調用情況)。
- 確保系統設計和運行符合金融、醫療、政務等行業監管要求以及本地與跨境數據合規規範。
- 訪問控制與租戶隔離:
- 模型
- 身份認證與權限管理:
- Keycloak、Auth0、Okta、各雲廠商 IAM(AWS IAM / GCP IAM / Azure AD)。
- OPA(Open Policy Agent)+ Rego Policy 等策略引擎,用於統一策略管理與執行。
- API 安全網關:
- Kong、Apigee、Envoy、雲廠商 API Gateway 等。
- 數據與密鑰安全:
- KMS(Key Management Service)、HashiCorp Vault。
- TLS 終端、機密計算(Confidential Computing)等。
- 身份認證與權限管理:
11.5.1 訪問控制與租戶隔離:保證“誰能用、能用什麼、能用多少”
在多業務線、多客戶、多角色共同使用的大模型平臺中,若沒有細粒度訪問控制和租戶隔離,很容易出現權限濫用、數據洩露和資源爭搶等嚴重問題。一個完善的訪問與隔離體系需要在以下幾個維度配合:
- 身份認證與**單點登錄** 通過 API Key / Token、OAuth2 / OIDC、企業 SSO 等方式,對內部員工、外部合作伙伴、第三方應用進行統一身份認證。對企業用戶,可與現有身份系統(如 AD / LDAP / 企業 IAM)打通,避免重複賬號體系。
- 細粒度權限控制( RBAC** / ** ABAC )
- RBAC:為管理員、算法工程師、業務運營、普通用戶、合作伙伴等角色分別配置可訪問的模型、環境(測試 / 生產)、操作(調用 / 配置 / 發佈)與額度。
- ABAC:在角色基礎上,引入租戶 ID、項目 ID、數據域、時間段等屬性,實現更靈活的策略(如“僅允許政務租戶 A 在本地域調用本地化模型集群”)。
- 多租戶隔離與配額管理
- 在邏輯層面,通過租戶 ID 隔離不同客戶的調用、數據與日誌;
- 在物理層面,對高合規客戶(如銀行 / 政府)提供專用集群或專用節點,實現更高等級的隔離;
- 配置不同租戶的 QPS 限制、併發連接數和 token 配額,防止“某一租戶暴衝拖垮全場”。
- 訪問審計與策略評估
- 對關鍵操作(如創建 / 刪除 API Key、調整權限、修改配額)進行審計記錄;
- 藉助 OPA / Rego 等策略引擎,在執行前對複雜訪問策略進行統一評估與解釋,減少“策略散落代碼中”的風險。
通過這層機制,平臺可以在保證資源和數據安全的前提下,對內外部用戶開放大模型能力,同時為後續合規審計和問題追責提供基礎數據。
11.5.2 數據安全、隱私與合規審計:讓模型“好用又合規”
大模型往往會接觸到大量敏感數據(用戶對話、業務文檔、交易記錄等),一旦安全或合規出現問題,後果將極其嚴重。因此,需要在數據全生命週期和模型調用全鏈路上“多層防護”。
- 數據傳輸與存儲安全
- 對所有外部和內部接口統一啟用 TLS 加密,防止傳輸中被竊聽或篡改;
- 對敏感數據採用靜態加密存儲,配合雲廠商或自建的 KMS 管理密鑰生命週期;
- 使用 Vault 等工具集中管理訪問數據庫、對象存儲、第三方 API 所需的密鑰和憑證。
- 最小化原則與脫敏
- 只採集業務所必需的數據字段,並在日誌與訓練樣本中儘量移除個人身份信息(PII)與敏感字段;
- 對不可避免要保留的標識符進行哈希或匿名化處理,降低洩露風險;
- 在 RAG / 知識庫場景,對文檔訪問做權限分級,確保模型不會從“不該看的文檔”中檢索信息。
- 隱私增強技術與邊緣約束
- 在需要共享模型而不共享原始數據的場景中,引入差分隱私或聯邦學習等方式,兼顧隱私與效能;
- 對政務、金融、醫療等場景,採用“數據不出域,模型下沉 or 本地部署”的模式,將訓練 / 推理能力部署在合規域內。
- 合規與審計機制
- 對模型發佈、配置變更、權限調整等操作進行審批流與留痕,方便事後追溯;
- 對每次請求記錄模型版本、調用方、路由決策、數據訪問範圍等元信息,在出現爭議或調查需求時可以覆盤;
- 定期輸出合規報表(如數據訪問審計、權限使用記錄、異常事件報告),對接內部風控與外部監管要求。
這部分能力與 11.3、11.4 的 Data / Model Ops 和監控平臺相互配合,共同構成一個“既能持續迭代,又能安全合規”的模型運行環境。
11.6 上層應用與中臺能力(Application Enablers)
有了從訓練到推理、安全與運維的完整基礎設施,還需要一層面向業務與開發者的“能力層”,將底層大模型抽象成更易用、更貼近業務語義的組件與服務。這一層通常被稱為 AI 中臺、應用使能層或 Copilot 平臺 ,其職責是:把大模型 + RAG + Agent + 工作流封裝成標準化能力,讓業務團隊與生態夥伴可以快速搭建 AI 應用。
這一層一端連接模型 API、RAG 引擎與 Agent Orchestrator,另一端連接 CRM / ERP / OA / 工單等業務系統,是“從模型能力到業務場景”的關鍵橋樑。
- 場景
- 企業 AI 中臺 / Copilot 平臺:為 CRM、ERP、OA、客服、營銷、研發等內部系統統一提供對話、RAG、Agent 等智能能力。
- 面向開發者與生態夥伴的應用開發平臺:通過 SDK、模板工程、可視化編排工具,讓第三方快速構建和部署 AI 應用。
- 行業 SaaS 產品的 AI 後端:如智能客服雲、營銷雲、辦公協同雲、研發管理雲等,將 AI 能力嵌入原有產品體系。
- 垂直場景助手:代碼 Copilot、銷售助手、運營助手、法務助手、醫生助理等,通過中臺能力迅速組合出場景化解決方案。
- 原理
- 對話與 Agent 能力:
- 會話管理與記憶 :維護多輪對話狀態與長期記憶,支持話題切換、上下文壓縮和個性化畫像。
- 工具調用(Tool Use)與**工作流** 編排 :通過函數調用或插件機制,將模型與外部系統(數據庫、搜索、業務 API、第三方服務)連接起來;在複雜任務中使用 Workflow / Orchestrator 將多步操作串聯起來。
- 多 Agent 協作 :為複雜任務拆分出不同角色(如規劃者、執行者、審閱者),以協作方式完成任務分解與結果聚合。
- RAG 與知識庫:
- 文檔解析與預處理 :對 PDF、Word、網頁、掃描件等文檔進行解析、切塊、結構化。
- 向量化與檢索 :使用 Embedding 模型對文本 / 表格 / 代碼等內容進行向量化,構建向量索引;結合關鍵字檢索與向量檢索實現高召回。
- 檢索 + 生成(RAG)與證據鏈 :在推理時先從知識庫檢索相關內容,再由大模型基於檢索結果生成回答,並輸出引用與證據鏈,提高準確性與可解釋性。
- 知識圖譜 與結構化知識融合 :將領域知識圖譜、業務數據表、規則系統與 LLM 結合,提高對結構化查詢與複雜約束的處理能力。
- 開發者接入與二次開發:
- **多語言 SDK 與 **API** ** 設計 :提供 Python / JS / Java / Go 等語言的 SDK,封裝調用模式、重試與冪等處理。
- 模板與**低代碼** ** / 無代碼搭建** :通過預製模板工程與可視化“搭積木”式工具,讓非專業開發者也能搭建 RAG / Agent / Workflow。
- 插件與中間件 :提供與常見業務系統(CRM / ERP / OA / 工單系統等)的插件或中間件,降低系統集成成本。
- 對話與 Agent 能力:
- 模型
- 對話 / Agent 框架:
- LangChain、LlamaIndex、Haystack、Semantic Kernel 等。
- 自研 Orchestration 層:通常包含 Workflow Engine、Tool Router、Memory 管理模塊。
- RAG 與向量檢索:
- 向量數據庫:FAISS、Milvus、Qdrant、Weaviate、Pinecone 等。
- 文檔解析:unstructured、Textract、pdfplumber、Apache Tika 等。
- SDK / 接入層:
- 官方或自研 SDK、前端組件庫(聊天組件、提示模板管理、對話記錄視圖)。
- 與業務系統(CRM / ERP / OA / 工單等)的中間件 / 插件。
- 對話 / Agent 框架:
11.6.1 對話與 Agent 編排:從“問答機器人”到“任務協作體”
相比早期的 FAQ 式問答機器人,現代大模型驅動的應用更像是“會用工具的智能協作者”。對話與 Agent 編排的目標,是把大模型從“語言生成器”升級為能夠調用工具、執行計劃、協調多角色的智能體。
- 對話管理與記憶機制
- 維護對話上下文、用戶畫像和長週期記憶,在多輪交互中保持一致性與連貫性;
- 對超長對話採用摘要、檢索式記憶等方式進行壓縮,避免上下文“爆表”;
- 在企業內應用中,引入身份與權限信息到對話上下文中,使回答與操作符合用戶在業務系統中的權限。
- 工具調用(Tool Use)與**工作流**編排
- 為模型提供結構化工具列表(如“查訂單”“創建工單”“查詢庫存”“調用搜索引擎”等),並通過函數調用接口讓模型在需要時主動調用;
- 使用 Orchestrator 根據模型提出的計劃,協調多個工具調用的順序、數據流與錯誤處理;
- 對複雜業務流程(如審批流、報銷、售後處理)進行工作流建模,讓 Agent 可以扮演“流程協調者”的角色。
- 多 Agent 協作模式
- 將複雜任務拆成多個角色:如“任務規劃 Agent”“信息檢索 Agent”“執行 Agent”“質檢 / 審核 Agent”;
- 通過消息通道或共享內存實現 Agent 間協作,提升複雜任務的魯棒性與可解釋性;
- 在企業環境中,可以將人類角色也納入協作環中,如“AI 起草–人類審核–AI 修改–系統執行”。
這一層通常藉助 LangChain、Semantic Kernel、LlamaIndex 等現成框架,並配合自研的 Orchestration 服務,將對話、工具、工作流、權限和審計統一在一套“Agent 平臺”內。
11.6.2 RAG、知識庫與開發者平臺:把企業知識“接到模型腦子裡”
大模型再強,也不可能天然掌握每一家企業的私有知識,更無法實時知道最新的政策、產品和業務規則。RAG + 知識庫 + 開發者平臺,就是把這些企業知識、行業知識和實時數據以工程化方式接入模型能力的關鍵路徑。
- 文檔解析與知識入庫
- 通過 unstructured、Textract、pdfplumber、Tika 等組件,將 PDF、Office 文檔、網頁、圖片掃描件解析為結構化文本;
- 按章節、標題、語義塊等進行“切塊”,為後續向量化與檢索提供合適粒度;
- 對於表格數據、業務數據庫、API 文檔等結構化信息,構建對應的 schema 映射和訪問接口。
- 向量化、索引與檢索重排
- 使用 Embedding 模型將文本 / 代碼 / 多模態內容轉換為向量,存入 FAISS、Milvus、Qdrant、Weaviate、Pinecone 等向量數據庫;
- 同時保留關鍵詞索引與元數據過濾能力(如按租戶、部門、文檔類型過濾),組合出高精度的“檢索前過濾 + 語義檢索 + 重排”流程;
- 在查詢時,將檢索結果與原始問題一起喂入大模型,實現“檢索增強生成(RAG)”,並返回引用與證據鏈。
- RAG 應用模板與**低代碼**搭建
- 為常見場景(知識問答、政策解讀、產品說明、內部文檔助手等)提供預製 RAG 模板;
- 通過可視化配置界面(選擇知識源、設置切塊規則、選定向量模型與大模型)快速搭建專屬知識助手;
- 將這些能力以 SDK 形式暴露給開發者,支持在 Web、移動端、桌面端或業務系統插件中快速嵌入。
- 開發者平臺與生態集成
- 提供 Python / JS / Java / Go 等語言 SDK,以及前端組件(聊天氣泡、文檔引用區、反饋按鈕等),降低集成門檻;
- 為主流業務系統(CRM / ERP / OA / 工單)提供插件或中間件,使其可以“勾選幾項配置”就接入 AI 能力;
- 對外開放應用開發平臺,讓生態夥伴基於底座模型、RAG 與 Agent 能力構建自己的行業應用,形成“平臺–生態–終端客戶”的正循環。
這一層最終將複雜的模型與基礎設施能力封裝成“可複用、可拼裝的業務組件”,幫助企業在安全、合規、成本可控的前提下,以更低門檻、更快速度,把大模型真正變成推動業務創新的生產力工具。