Skip to content

AI 绘画与生图模型入门 (Image Generation Intro)

💡 学习指南:从 Stable Diffusion 到 Sora,生成式 AI 正在重塑创意产业。本章节将带你理解从“噪点”中诞生“画作”的神奇过程。无论你是设计师还是开发者,理解这些底层原理都将帮助你更好地驾驭 AI 工具。

0. 快速上手:如何生成第一张图?

在你开始学习枯燥的原理之前,首先得体验一下"神笔马良"的感觉。AI 绘画不再需要你经过数年的美术训练,只需要一段文字(Prompt),计算机就能为你创造出令人惊叹的图像。

🎨 常见的 AI 绘画与编辑工具

🤖 多模态大模型 (对话 + 生图 + 编辑) 这类模型集成在聊天机器人中,支持通过对话生成图片,并能理解指令进行修改(如"把猫换成狗")。

  1. GPT-4o (DALL·E 3):集成在 ChatGPT 中,语义理解极强,支持局部重绘(Inpainting)和对话式修改。
  2. Gemini (Imagen 3):Google 的顶级模型,生成速度快,写实风格出色,支持复杂的逻辑指令。
  3. 通义万相 (Wanx) / Qwen:阿里通义实验室出品,中文理解能力优秀,支持多种艺术风格。

🎨 专业创作工具 (画质与艺术优先)

  1. Midjourney:目前艺术感与审美最顶尖的工具(运行在 Discord/Web),支持扩图(Zoom)、平移(Pan)和局部重绘。
  2. Flux:当前最强开源模型,文字生成(Typography)能力极强,画质媲美 Midjourney。

💻 本地/开源生态 (极致控制)

  1. Stable Diffusion (WebUI/ComfyUI):拥有最庞大的插件生态(ControlNet, LoRA),可精确控制画面构图、姿态和风格。
  2. ComfyUI:基于节点的工作流工具,适合构建复杂的自动化生图管线。

0.1 为什么要学习 AI 绘画?(Why GenAI?)

你可能会问:“网上图片那么多,我为什么要用 AI 生成?” 或者 “我是程序员,为什么要懂画画?”

这并非为了替代人类画家,而是因为 生成式 AI (Generative AI) 带来了一种全新的生产力范式:

1. 效率的质变:从小时到秒

  • 传统绘画:构思 -> 草图 -> 线稿 -> 上色 -> 光影 -> 细化。一张精美插画可能需要数天。
  • AI 生成:构思 -> 提示词 -> 生成。只需要几秒钟。这让你可以在 10 分钟内尝试 100 种不同的构图和风格。

2. 创意的扩充:打破技能壁垒

  • 传统:你脑子里有一个绝妙的创意,但你的手画不出来。
  • AI:它是你的“手”。只要你能描述出来,它就能画出来。它降低了表达的门槛,让每个人都能成为创作者。

3. 可编程的艺术

  • 对于开发者来说,AI 模型不仅仅是画笔,更是API。你可以将它集成到游戏、网站或应用中,实现动态生成头像、实时渲染材质等过去无法想象的功能。

1. 核心架构:解耦的艺术 (The Big Picture)

如果要让电脑学会画画,直接处理像素太累了(一张 1024x1024 的图有 300 多万个数值)。聪明的科学家们设计了一套分工明确的流水线。

我们可以把 AI 画家看作一个由三个部门组成的创意工作室

2.1 角色分工

  • 👁️ 眼睛:VAE (变分自编码器)

    • 职责:负责“翻译”。
    • 编码 (Encode):把人类看的高清大图(Pixel Space),压缩成机器好处理的“浓缩特征图”(Latent Space)。
    • 解码 (Decode):把机器画好的特征图,还原成我们能看懂的高清大图。
    • 作用:大大降低了计算量,让 AI 可以在家用显卡上运行。
  • 🧠 大脑:UNet / DiT (去噪模型)

    • 职责:负责“作画”。
    • 工作原理:它主要在潜空间(Latent Space)工作。它的核心技能是预测噪声。给它一张模糊的噪点图,它能算出“这上面哪部分是噪点”,然后减去噪点,画面就清晰了。
    • 进化:早期的 Stable Diffusion 使用 UNet 架构;最新的 Sora 和 SD3 使用 DiT (Transformer) 架构,逻辑能力更强。
  • 👂 耳朵:CLIP / T5 (文本编码器)

    • 职责:负责“听懂人话”。
    • 工作原理:它把你输入的 Prompt(如 "一只猫")转换成计算机能理解的数学向量 (Embeddings),并交给大脑,告诉它该画什么。
提示词 (Prompt)
"一只可爱的猫"
文本编码器
CLIP / T5
Vector [768]
生成模型
UNet / DiT
去噪 (Denoise)
图像解码器
VAE Decoder
Image

耳朵 (Text Encoder)

负责"听懂"你的描述,把它翻译成计算机能理解的数学向量。

大脑 (UNet/DiT)

核心创造者。在潜空间(Latent Space)中通过预测噪声来构思画面。

眼睛 (VAE)

负责"翻译"回图像。把大脑构思的模糊特征还原成高清像素图片。

3. 视觉模型:潜空间 (Latent Space)

理解 潜空间 (Latent Space) 是理解现代 AI 的关键。

想象一下,如果我们要描述一个人:

  • Pixel Space (像素空间):我们需要描述他脸上每一个毛孔的颜色(几百万个数据)。
  • Latent Space (潜空间):我们只需要描述几个关键特征——“性别:男,发型:短发,表情:笑,眼镜:有”。

AI 并不是在画布上一点点涂颜色,而是在这个高维的“特征空间”里寻找坐标。

  • 压缩:大图 -> 浓缩为 Latent 数值。
  • 操作:在这个空间里移动(比如把“表情”这个维度的数值调大),图片就会从哭脸变成笑脸。
像素空间 (Pixel Space)
HD Image1024x1024
维度:3 (RGB)
数据量:~300万
VAE Encoder
压缩 48x
潜空间 (Latent Space)
Latent Feature64x64
维度:4 (Channels)
数据量:~1.6万
压缩比
1:48

4. 生成机制:从噪声到画作 (Generation Process)

AI 是如何凭空变出画面的?主要有两种主流机制。

4.1 扩散模型 (Diffusion) —— 雕刻家

扩散模型的灵感来源于物理学中的热力学扩散。它包含两个过程:

  1. 破坏 (Forward):像往清水里滴墨水,或者把照片磨砂化。一步步加噪点,直到变成纯噪声。
  2. 重构 (Reverse):AI 学习这一过程的逆过程。从一片雪花屏开始,猜测“这里原本应该是什么”,一点点去除噪声,直到露出清晰的画面。

这就像米开朗基罗雕刻大卫像:“大卫就在石头里,我只是去掉了多余的部分。”

Step: 0 / 100
纯噪声 (Noise)原图 (Original)

4.2 流匹配 (Flow Matching) —— 传送门

为什么 Diffusion 有时很慢? 因为从“噪声”到“图片”的还原路径,Diffusion 往往走的是一条弯弯曲曲的、充满随机性的路(随机游走)。

最新的模型(如 Flux, Stable Diffusion 3)采用了 Flow Matching (流匹配) 技术。

  • 核心思想:我们不再盲目去噪,而是寻找从“噪声分布”到“图像分布”的 最优传输路径 (Optimal Transport)
  • 优势:这条路径是笔直的。AI 不需要走 50 步,往往只需要走几步(比如 4-8 步),就能顺着直线“滑”到终点。这也是为什么 Flux 既快又好的原因。
Diffusion (扩散模型)
噪声 (Noise)图像 (Image)
步数 (Steps)
0
路径弯曲 (Curved)
Flow Matching (流匹配)
噪声 (Noise)图像 (Image)
步数 (Steps)
0
路径直线 (Straight)

5. 操控机制:提示词的艺术 (Prompting)

AI 画家空有一身技艺,怎么听懂你的指挥?

这就涉及到了 交叉注意力机制 (Cross-Attention)

  1. 翻译:你的 Prompt(如 "cyberpunk")被 Text Encoder 变成了一串向量。
  2. 注入:这些向量被“注射”进生成模型的每一层。
  3. 关注:当 AI 在画画时,它会不断回头看这些向量。
    • 画背景时,它会关注 "city", "neon lights"。
    • 画主体时,它会关注 "cat", "glasses"。

这就是为什么 Prompt 中词语的顺序和权重如此重要。

📝 提示词
"cyberpunk cat, neon lights, futuristic city"
cyberpunk
权重: 90%
cat
权重: 100%
neon
权重: 70%
lights
权重: 60%
futuristic
权重: 80%
city
权重: 50%
🎯 交叉注意力可视化
cyberpunk
90%
cat
100%
neon
70%
lights
60%
futuristic
80%
city
50%

💡交叉注意力机制让 AI 理解提示词的每个词。 当生成图片时,AI 会"关注"不同的词: "cyberpunk" 影响整体风格,"cat" 决定主体,"neon lights" 控制灯光效果。 词的顺序和权重都会影响最终画面!

6. 总结 (Summary)

AI 绘画技术并不是魔法,而是统计学、几何学与计算机科学的完美结合。

  • VAE 帮我们压缩了世界。
  • Diffusion/Flow 帮我们从混沌中建立秩序。
  • Transformer 帮我们连接了语言与视觉。

当你点击“生成”的那一刻,你实际上是指挥着数亿个参数,在高维空间中进行了一次精确的数学迁徙,最终将一个可能存在的平行宇宙坍缩到了你的屏幕上。

附录:常用术语表 (Vocabulary)

术语英文解释
文生图Text-to-Image输入文字生成图像的任务。
图生图Image-to-Image输入参考图和文字生成新图像的任务。
扩散模型Diffusion Model通过逐步去噪生成图像的一类模型架构。
潜空间Latent Space压缩后的图像特征空间,计算效率更高。
VAEVariational Autoencoder负责图像与潜空间之间转换的编解码器。
LoRALow-Rank Adaptation一种轻量级微调技术,用于给模型添加特定画风或角色。
种子Seed初始化噪声的随机数种子,决定了生成的初始状态。
提示词Prompt指挥 AI 生成内容的文本指令。
采样器Sampler决定去噪过程具体算法的组件(如 Euler, DPM++)。