AI 绘画与生图模型入门 (Image Generation Intro)
💡 学习指南:从 Stable Diffusion 到 Sora,生成式 AI 正在重塑创意产业。本章节将带你理解从“噪点”中诞生“画作”的神奇过程。无论你是设计师还是开发者,理解这些底层原理都将帮助你更好地驾驭 AI 工具。
0. 快速上手:如何生成第一张图?
在你开始学习枯燥的原理之前,首先得体验一下"神笔马良"的感觉。AI 绘画不再需要你经过数年的美术训练,只需要一段文字(Prompt),计算机就能为你创造出令人惊叹的图像。
🎨 常见的 AI 绘画与编辑工具
🤖 多模态大模型 (对话 + 生图 + 编辑) 这类模型集成在聊天机器人中,支持通过对话生成图片,并能理解指令进行修改(如"把猫换成狗")。
- GPT-4o (DALL·E 3):集成在 ChatGPT 中,语义理解极强,支持局部重绘(Inpainting)和对话式修改。
- Gemini (Imagen 3):Google 的顶级模型,生成速度快,写实风格出色,支持复杂的逻辑指令。
- 通义万相 (Wanx) / Qwen:阿里通义实验室出品,中文理解能力优秀,支持多种艺术风格。
🎨 专业创作工具 (画质与艺术优先)
- Midjourney:目前艺术感与审美最顶尖的工具(运行在 Discord/Web),支持扩图(Zoom)、平移(Pan)和局部重绘。
- Flux:当前最强开源模型,文字生成(Typography)能力极强,画质媲美 Midjourney。
💻 本地/开源生态 (极致控制)
- Stable Diffusion (WebUI/ComfyUI):拥有最庞大的插件生态(ControlNet, LoRA),可精确控制画面构图、姿态和风格。
- ComfyUI:基于节点的工作流工具,适合构建复杂的自动化生图管线。
0.1 为什么要学习 AI 绘画?(Why GenAI?)
你可能会问:“网上图片那么多,我为什么要用 AI 生成?” 或者 “我是程序员,为什么要懂画画?”
这并非为了替代人类画家,而是因为 生成式 AI (Generative AI) 带来了一种全新的生产力范式:
1. 效率的质变:从小时到秒
- 传统绘画:构思 -> 草图 -> 线稿 -> 上色 -> 光影 -> 细化。一张精美插画可能需要数天。
- AI 生成:构思 -> 提示词 -> 生成。只需要几秒钟。这让你可以在 10 分钟内尝试 100 种不同的构图和风格。
2. 创意的扩充:打破技能壁垒
- 传统:你脑子里有一个绝妙的创意,但你的手画不出来。
- AI:它是你的“手”。只要你能描述出来,它就能画出来。它降低了表达的门槛,让每个人都能成为创作者。
3. 可编程的艺术
- 对于开发者来说,AI 模型不仅仅是画笔,更是API。你可以将它集成到游戏、网站或应用中,实现动态生成头像、实时渲染材质等过去无法想象的功能。
1. 核心架构:解耦的艺术 (The Big Picture)
如果要让电脑学会画画,直接处理像素太累了(一张 1024x1024 的图有 300 多万个数值)。聪明的科学家们设计了一套分工明确的流水线。
我们可以把 AI 画家看作一个由三个部门组成的创意工作室:
2.1 角色分工
👁️ 眼睛:VAE (变分自编码器)
- 职责:负责“翻译”。
- 编码 (Encode):把人类看的高清大图(Pixel Space),压缩成机器好处理的“浓缩特征图”(Latent Space)。
- 解码 (Decode):把机器画好的特征图,还原成我们能看懂的高清大图。
- 作用:大大降低了计算量,让 AI 可以在家用显卡上运行。
🧠 大脑:UNet / DiT (去噪模型)
- 职责:负责“作画”。
- 工作原理:它主要在潜空间(Latent Space)工作。它的核心技能是预测噪声。给它一张模糊的噪点图,它能算出“这上面哪部分是噪点”,然后减去噪点,画面就清晰了。
- 进化:早期的 Stable Diffusion 使用 UNet 架构;最新的 Sora 和 SD3 使用 DiT (Transformer) 架构,逻辑能力更强。
👂 耳朵:CLIP / T5 (文本编码器)
- 职责:负责“听懂人话”。
- 工作原理:它把你输入的
Prompt(如 "一只猫")转换成计算机能理解的数学向量 (Embeddings),并交给大脑,告诉它该画什么。
耳朵 (Text Encoder)
负责"听懂"你的描述,把它翻译成计算机能理解的数学向量。
大脑 (UNet/DiT)
核心创造者。在潜空间(Latent Space)中通过预测噪声来构思画面。
眼睛 (VAE)
负责"翻译"回图像。把大脑构思的模糊特征还原成高清像素图片。
3. 视觉模型:潜空间 (Latent Space)
理解 潜空间 (Latent Space) 是理解现代 AI 的关键。
想象一下,如果我们要描述一个人:
- Pixel Space (像素空间):我们需要描述他脸上每一个毛孔的颜色(几百万个数据)。
- Latent Space (潜空间):我们只需要描述几个关键特征——“性别:男,发型:短发,表情:笑,眼镜:有”。
AI 并不是在画布上一点点涂颜色,而是在这个高维的“特征空间”里寻找坐标。
- 压缩:大图 -> 浓缩为 Latent 数值。
- 操作:在这个空间里移动(比如把“表情”这个维度的数值调大),图片就会从哭脸变成笑脸。
直接处理 300 万个像素太慢了。VAE 把图像压缩成「压缩饼干」(潜变量),保留了核心特征(语义、构图),扔掉了冗余细节。AI 在这个小空间里画画,速度飞快!
4. 生成机制:从噪声到画作 (Generation Process)
AI 是如何凭空变出画面的?主要有两种主流机制。
4.1 扩散模型 (Diffusion) —— 雕刻家
扩散模型的灵感来源于物理学中的热力学扩散。它包含两个过程:
- 破坏 (Forward):像往清水里滴墨水,或者把照片磨砂化。一步步加噪点,直到变成纯噪声。
- 重构 (Reverse):AI 学习这一过程的逆过程。从一片雪花屏开始,猜测“这里原本应该是什么”,一点点去除噪声,直到露出清晰的画面。
这就像米开朗基罗雕刻大卫像:“大卫就在石头里,我只是去掉了多余的部分。”
AI 通过预测并减去噪声,从混沌中还原出图像。这就像它学会了把推倒的积木重新搭好。
4.2 流匹配 (Flow Matching) —— 传送门
为什么 Diffusion 有时很慢? 因为从“噪声”到“图片”的还原路径,Diffusion 往往走的是一条弯弯曲曲的、充满随机性的路(随机游走)。
最新的模型(如 Flux, Stable Diffusion 3)采用了 Flow Matching (流匹配) 技术。
- 核心思想:我们不再盲目去噪,而是寻找从“噪声分布”到“图像分布”的 最优传输路径 (Optimal Transport)。
- 优势:这条路径是笔直的。AI 不需要走 50 步,往往只需要走几步(比如 4-8 步),就能顺着直线“滑”到终点。这也是为什么 Flux 既快又好的原因。
Diffusion 就像在迷雾中摸索,路径充满了随机性,需要走很多弯路(步数多)才能到达终点。
Flow Matching 就像使用了 GPS 导航,直接找到了从噪声到图像的直线最优路径 (Optimal Transport),因此只需要极少的步数。
5. 操控机制:提示词的艺术 (Prompting)
AI 画家空有一身技艺,怎么听懂你的指挥?
这就涉及到了 交叉注意力机制 (Cross-Attention)。
- 翻译:你的 Prompt(如 "cyberpunk")被 Text Encoder 变成了一串向量。
- 注入:这些向量被“注射”进生成模型的每一层。
- 关注:当 AI 在画画时,它会不断回头看这些向量。
- 画背景时,它会关注 "city", "neon lights"。
- 画主体时,它会关注 "cat", "glasses"。
这就是为什么 Prompt 中词语的顺序和权重如此重要。
💡交叉注意力机制让 AI 理解提示词的每个词。 当生成图片时,AI 会"关注"不同的词: "cyberpunk" 影响整体风格,"cat" 决定主体,"neon lights" 控制灯光效果。 词的顺序和权重都会影响最终画面!
6. 总结 (Summary)
AI 绘画技术并不是魔法,而是统计学、几何学与计算机科学的完美结合。
- VAE 帮我们压缩了世界。
- Diffusion/Flow 帮我们从混沌中建立秩序。
- Transformer 帮我们连接了语言与视觉。
当你点击“生成”的那一刻,你实际上是指挥着数亿个参数,在高维空间中进行了一次精确的数学迁徙,最终将一个可能存在的平行宇宙坍缩到了你的屏幕上。
附录:常用术语表 (Vocabulary)
| 术语 | 英文 | 解释 |
|---|---|---|
| 文生图 | Text-to-Image | 输入文字生成图像的任务。 |
| 图生图 | Image-to-Image | 输入参考图和文字生成新图像的任务。 |
| 扩散模型 | Diffusion Model | 通过逐步去噪生成图像的一类模型架构。 |
| 潜空间 | Latent Space | 压缩后的图像特征空间,计算效率更高。 |
| VAE | Variational Autoencoder | 负责图像与潜空间之间转换的编解码器。 |
| LoRA | Low-Rank Adaptation | 一种轻量级微调技术,用于给模型添加特定画风或角色。 |
| 种子 | Seed | 初始化噪声的随机数种子,决定了生成的初始状态。 |
| 提示词 | Prompt | 指挥 AI 生成内容的文本指令。 |
| 采样器 | Sampler | 决定去噪过程具体算法的组件(如 Euler, DPM++)。 |
