AI 绘画与生图模型入门 (Image Generation Intro)

💡 学习指南：从 Stable Diffusion 到 Sora，生成式 AI 正在重塑创意产业。本章节将带你理解从“噪点”中诞生“画作”的神奇过程。无论你是设计师还是开发者，理解这些底层原理都将帮助你更好地驾驭 AI 工具。

0. 快速上手：如何生成第一张图？

在你开始学习枯燥的原理之前，首先得体验一下"神笔马良"的感觉。AI 绘画不再需要你经过数年的美术训练，只需要一段文字（Prompt），计算机就能为你创造出令人惊叹的图像。

🎨 常见的 AI 绘画与编辑工具

🤖 多模态大模型 (对话 + 生图 + 编辑) 这类模型集成在聊天机器人中，支持通过对话生成图片，并能理解指令进行修改（如"把猫换成狗"）。

GPT-4o (DALL·E 3)：集成在 ChatGPT 中，语义理解极强，支持局部重绘（Inpainting）和对话式修改。
Gemini (Imagen 3)：Google 的顶级模型，生成速度快，写实风格出色，支持复杂的逻辑指令。
通义万相 (Wanx) / Qwen：阿里通义实验室出品，中文理解能力优秀，支持多种艺术风格。

🎨 专业创作工具 (画质与艺术优先)

Midjourney：目前艺术感与审美最顶尖的工具（运行在 Discord/Web），支持扩图（Zoom）、平移（Pan）和局部重绘。
Flux：当前最强开源模型，文字生成（Typography）能力极强，画质媲美 Midjourney。

💻 本地/开源生态 (极致控制)

Stable Diffusion (WebUI/ComfyUI)：拥有最庞大的插件生态（ControlNet, LoRA），可精确控制画面构图、姿态和风格。
ComfyUI：基于节点的工作流工具，适合构建复杂的自动化生图管线。

0.1 为什么要学习 AI 绘画？(Why GenAI?)

你可能会问：“网上图片那么多，我为什么要用 AI 生成？” 或者 “我是程序员，为什么要懂画画？”

这并非为了替代人类画家，而是因为 生成式 AI (Generative AI) 带来了一种全新的生产力范式：

1. 效率的质变：从小时到秒

传统绘画：构思 -> 草图 -> 线稿 -> 上色 -> 光影 -> 细化。一张精美插画可能需要数天。
AI 生成：构思 -> 提示词 -> 生成。只需要几秒钟。这让你可以在 10 分钟内尝试 100 种不同的构图和风格。

2. 创意的扩充：打破技能壁垒

传统：你脑子里有一个绝妙的创意，但你的手画不出来。
AI：它是你的“手”。只要你能描述出来，它就能画出来。它降低了表达的门槛，让每个人都能成为创作者。

3. 可编程的艺术

对于开发者来说，AI 模型不仅仅是画笔，更是API。你可以将它集成到游戏、网站或应用中，实现动态生成头像、实时渲染材质等过去无法想象的功能。

1. 核心架构：解耦的艺术 (The Big Picture)

如果要让电脑学会画画，直接处理像素太累了（一张 1024x1024 的图有 300 多万个数值）。聪明的科学家们设计了一套分工明确的流水线。

我们可以把 AI 画家看作一个由三个部门组成的创意工作室：

2.1 角色分工

👁️ 眼睛：VAE (变分自编码器)
- 职责：负责“翻译”。
- 编码 (Encode)：把人类看的高清大图（Pixel Space），压缩成机器好处理的“浓缩特征图”（Latent Space）。
- 解码 (Decode)：把机器画好的特征图，还原成我们能看懂的高清大图。
- 作用：大大降低了计算量，让 AI 可以在家用显卡上运行。
🧠 大脑：UNet / DiT (去噪模型)
- 职责：负责“作画”。
- 工作原理：它主要在潜空间（Latent Space）工作。它的核心技能是预测噪声。给它一张模糊的噪点图，它能算出“这上面哪部分是噪点”，然后减去噪点，画面就清晰了。
- 进化：早期的 Stable Diffusion 使用 UNet 架构；最新的 Sora 和 SD3 使用 DiT (Transformer) 架构，逻辑能力更强。
👂 耳朵：CLIP / T5 (文本编码器)
- 职责：负责“听懂人话”。
- 工作原理：它把你输入的 Prompt（如 "一只猫"）转换成计算机能理解的数学向量 (Embeddings)，并交给大脑，告诉它该画什么。

"一只可爱的猫"

CLIP / T5

Vector [768]

生成模型
UNet / DiT
去噪 (Denoise)

VAE Decoder

Image

耳朵 (Text Encoder)

负责"听懂"你的描述，把它翻译成计算机能理解的数学向量。

大脑 (UNet/DiT)

核心创造者。在潜空间(Latent Space)中通过预测噪声来构思画面。

眼睛 (VAE)

负责"翻译"回图像。把大脑构思的模糊特征还原成高清像素图片。

3. 视觉模型：潜空间 (Latent Space)

理解 潜空间 (Latent Space) 是理解现代 AI 的关键。

想象一下，如果我们要描述一个人：

Pixel Space (像素空间)：我们需要描述他脸上每一个毛孔的颜色（几百万个数据）。
Latent Space (潜空间)：我们只需要描述几个关键特征——“性别：男，发型：短发，表情：笑，眼镜：有”。

AI 并不是在画布上一点点涂颜色，而是在这个高维的“特征空间”里寻找坐标。

压缩：大图 -> 浓缩为 Latent 数值。
操作：在这个空间里移动（比如把“表情”这个维度的数值调大），图片就会从哭脸变成笑脸。

像素空间 (Pixel Space)

HD Image1024x1024

维度:3 (RGB)

数据量:~300万

VAE Encoder

压缩 48x

潜空间 (Latent Space)
Latent Feature64x64
维度:4 (Channels)
数据量:~1.6万

压缩比

1:48

为什么要压缩？

直接处理 300 万个像素太慢了。VAE 把图像压缩成「压缩饼干」（潜变量），保留了核心特征（语义、构图），扔掉了冗余细节。AI 在这个小空间里画画，速度飞快！

4. 生成机制：从噪声到画作 (Generation Process)

AI 是如何凭空变出画面的？主要有两种主流机制。

4.1 扩散模型 (Diffusion) —— 雕刻家

扩散模型的灵感来源于物理学中的热力学扩散。它包含两个过程：

破坏 (Forward)：像往清水里滴墨水，或者把照片磨砂化。一步步加噪点，直到变成纯噪声。
重构 (Reverse)：AI 学习这一过程的逆过程。从一片雪花屏开始，猜测“这里原本应该是什么”，一点点去除噪声，直到露出清晰的画面。

这就像米开朗基罗雕刻大卫像：“大卫就在石头里，我只是去掉了多余的部分。”

Step: 0 / 100

纯噪声 (Noise)原图 (Original)

生成阶段：创造数据

AI 通过预测并减去噪声，从混沌中还原出图像。这就像它学会了把推倒的积木重新搭好。

4.2 流匹配 (Flow Matching) —— 传送门

为什么 Diffusion 有时很慢？ 因为从“噪声”到“图片”的还原路径，Diffusion 往往走的是一条弯弯曲曲的、充满随机性的路（随机游走）。

最新的模型（如 Flux, Stable Diffusion 3）采用了 Flow Matching (流匹配) 技术。

核心思想：我们不再盲目去噪，而是寻找从“噪声分布”到“图像分布”的 最优传输路径 (Optimal Transport)。
优势：这条路径是笔直的。AI 不需要走 50 步，往往只需要走几步（比如 4-8 步），就能顺着直线“滑”到终点。这也是为什么 Flux 既快又好的原因。

Diffusion (扩散模型)

噪声 (Noise)图像 (Image)

步数 (Steps)

路径弯曲 (Curved)

Flow Matching (流匹配)

噪声 (Noise)图像 (Image)

步数 (Steps)

路径直线 (Straight)

为什么 Flow Matching 更快？

Diffusion 就像在迷雾中摸索，路径充满了随机性，需要走很多弯路（步数多）才能到达终点。
Flow Matching 就像使用了 GPS 导航，直接找到了从噪声到图像的直线最优路径 (Optimal Transport)，因此只需要极少的步数。

5. 操控机制：提示词的艺术 (Prompting)

AI 画家空有一身技艺，怎么听懂你的指挥？

这就涉及到了 交叉注意力机制 (Cross-Attention)。

翻译：你的 Prompt（如 "cyberpunk"）被 Text Encoder 变成了一串向量。
注入：这些向量被“注射”进生成模型的每一层。
关注：当 AI 在画画时，它会不断回头看这些向量。
- 画背景时，它会关注 "city", "neon lights"。
- 画主体时，它会关注 "cat", "glasses"。

这就是为什么 Prompt 中词语的顺序和权重如此重要。

📝 提示词

"cyberpunk cat, neon lights, futuristic city"

cyberpunk

权重: 90%

cat

权重: 100%

neon

权重: 70%

lights

权重: 60%

futuristic

权重: 80%

city

权重: 50%

🎯 交叉注意力可视化

cyberpunk

90%

cat

100%

neon

70%

lights

60%

futuristic

80%

city

50%

💡交叉注意力机制让 AI 理解提示词的每个词。当生成图片时，AI 会"关注"不同的词： "cyberpunk" 影响整体风格，"cat" 决定主体，"neon lights" 控制灯光效果。词的顺序和权重都会影响最终画面！

6. 总结 (Summary)

AI 绘画技术并不是魔法，而是统计学、几何学与计算机科学的完美结合。

VAE 帮我们压缩了世界。
Diffusion/Flow 帮我们从混沌中建立秩序。
Transformer 帮我们连接了语言与视觉。

当你点击“生成”的那一刻，你实际上是指挥着数亿个参数，在高维空间中进行了一次精确的数学迁徙，最终将一个可能存在的平行宇宙坍缩到了你的屏幕上。

附录：常用术语表 (Vocabulary)

术语	英文	解释
文生图	Text-to-Image	输入文字生成图像的任务。
图生图	Image-to-Image	输入参考图和文字生成新图像的任务。
扩散模型	Diffusion Model	通过逐步去噪生成图像的一类模型架构。
潜空间	Latent Space	压缩后的图像特征空间，计算效率更高。
VAE	Variational Autoencoder	负责图像与潜空间之间转换的编解码器。
LoRA	Low-Rank Adaptation	一种轻量级微调技术，用于给模型添加特定画风或角色。
种子	Seed	初始化噪声的随机数种子，决定了生成的初始状态。
提示词	Prompt	指挥 AI 生成内容的文本指令。
采样器	Sampler	决定去噪过程具体算法的组件（如 Euler, DPM++）。

AI 绘画与生图模型入门 (Image Generation Intro) ​

0. 快速上手：如何生成第一张图？ ​

0.1 为什么要学习 AI 绘画？(Why GenAI?) ​

1. 效率的质变：从小时到秒 ​

2. 创意的扩充：打破技能壁垒 ​

3. 可编程的艺术 ​

1. 核心架构：解耦的艺术 (The Big Picture) ​

2.1 角色分工 ​