5.5 前沿导读(选学):大模型(SAM)与生成式AI
本页是 前沿导读 / 选学内容,建议在学完 5.1–5.4 四条主线后再阅读。
开场问题
这一节回答的是:当我们已经理解预处理、分割、分类、增强这些基本工作流后,为什么还要再看 SAM 和生成式 AI,它们到底改变了什么。
很多读者会在接触新技术时有两个常见困惑:
- 已经有 U-Net、分类器、增强流程了,为什么还要单独讲基础模型和生成式模型?
- 这些新方法到底是在“替代前文”,还是只是给前文增加新的工具?
这正是本节放在第 5 章最后的原因:它不是另起一章推翻前文,而是站在前四节之上,重新看“数据怎么来、标注怎么做、模型怎么交互、图像怎么补全”。
直觉解释
可以把前四节理解成一条经典流水线:
- 第 5.1 节解决“输入怎么整理”;
- 第 5.2 节解决“怎样给出精细区域”;
- 第 5.3 节解决“怎样先筛查再粗定位”;
- 第 5.4 节解决“怎样应对小样本和图像退化”。
而这一节讨论的新范式,关注的是另一层问题:
- SAM 一类基础模型,在改变“分割和标注是怎样发生的”;
- 生成式 AI,在改变“缺失信息、退化图像和稀缺数据怎样被补足”。
所以它与前文的关系不是平行替代,而更像是:
- 给分割加上新的交互入口;
- 给数据构建和增强增加新的手段;
- 给恢复和重建引入更强的先验。
这也是为什么它最适合放在第 5 章最后:只有先理解传统工作流的边界,才能看清这些新方法到底解决了哪个旧痛点。
核心方法
这一节只抓住 4 个关键点。
1. 把 SAM 看成“提示驱动的分割/标注引擎”
SAM 最有价值的地方,常常不是直接替代专用医学分割模型,而是:
- 加速交互式标注;
- 先生成粗掩膜,再交给人工修正;
- 帮助下游专用模型更快拿到训练数据。
2. 把生成式模型看成“补信息”的工具
GAN、Diffusion 等生成式方法,常见用途不是生成一张“好看图片”,而是:
- 去噪;
- 去伪影;
- 重建欠采样数据;
- 做谨慎的数据合成与域扩展。
3. 新范式依然要服从旧任务目标
无论是 SAM 还是生成式 AI,最后仍然要落回前面几节的任务上:
- 是不是让分割更快、更稳;
- 是不是让分类/检测更可靠;
- 是不是让增强与恢复更可控。
4. 风险控制比“新”更重要
医学场景最怕的不是模型不够新,而是:
- SAM 在低对比、小病灶、3D 体数据上失稳;
- 生成式模型出现幻觉,凭空造出结构或抹掉病灶;
- 使用者把“看起来像”误当成“临床可用”。
典型案例
场景 1:用 SAM 做交互式标注提效
- 痛点:像素级标注成本高,医生逐层勾画太慢。
- 做法:点、框或粗涂提示 → SAM 给出候选掩膜 → 人工修正。
- 它与前文关系:本质上是在为第 5.2 节的分割任务更快地产生训练数据。
场景 2:用生成式方法做去噪与重建
- 痛点:低剂量 CT、加速 MRI、欠采样重建中信息不完整。
- 做法:用生成式先验帮助恢复结构细节,但必须配合严格质量控制。
- 它与前文关系:这是对第 5.4 节“恢复”问题的强化版本。
场景 3:用新范式服务下游分类/分割
- 痛点:标注稀缺、中心差异大、模型泛化差。
- 做法:SAM 提升标注效率,生成式方法做谨慎的数据补充或域扩展。
- 它与前文关系:最终仍然是为了让第 5.2、5.3 节中的下游任务更稳。
实践提示
正文只保留帮助理解的最小片段;这里重点是“怎么判断该不该用”。
1. 提示驱动分割可以先抽象成这样
python
def prompt_to_mask(image, prompt, foundation_segmentor):
return foundation_segmentor(image=image, prompt=prompt)2. 生成式恢复要始终和原图比对
python
def restore_image(image, generative_restorer):
restored = generative_restorer(image)
return image, restored3. 实际落地时优先问这 4 个问题
- 它是在替代人工标注,还是在替代最终诊断模型;
- 它是否真的解决了前文中的某个明确痛点;
- 它会不会引入新的幻觉、漏检或边界错误;
- 有没有独立验证、质控和失败模式分析。
4. 一个稳妥的使用顺序
- 先用 SAM 提高标注效率;
- 再训练面向具体任务的专用模型;
- 把生成式能力优先放在去噪、重建、伪影抑制等辅助环节;
- 所有结果都回到下游任务指标与人工复核上评估。
小结
这一节学会了:SAM 与生成式 AI 不是要推翻前文,而是在前文的预处理、分割、分类、增强工作流之上,重写“数据怎么来、分割怎么交互、退化怎么补救”的部分环节。
这一节之所以放在第 5 章最后,是因为只有先理解前四节的经典问题与方法,才能判断这些新范式到底是在补哪块短板,也才能更理性地使用它们。