28. Fault Tolerance and Checkpointing | 容错与 Checkpoint (Fault Tolerance & Checkpointing)
难度: Medium-Hard | 标签: 容错, Checkpoint, 训练恢复 | 目标人群: 需要理解长训练任务稳定性的学习者
这是一篇占位页,目前只保留入口和简短说明。后续正文会在 Chapter 1 主线稳定后补充。
当前状态
- 占位中,暂不展开正文
- 先保留可点击入口,后续更新时再补内容
- Notebook 暂不展开
后续更新
- 训练中断后的恢复
- 分布式 checkpoint 保存 / 加载
- 异步 checkpoint
- 显存抖动和优雅降级
