Skip to content

28. Fault Tolerance and Checkpointing | 容错与 Checkpoint (Fault Tolerance & Checkpointing)

难度: Medium-Hard | 标签: 容错, Checkpoint, 训练恢复 | 目标人群: 需要理解长训练任务稳定性的学习者

这是一篇占位页,目前只保留入口和简短说明。后续正文会在 Chapter 1 主线稳定后补充。

当前状态

  • 占位中,暂不展开正文
  • 先保留可点击入口,后续更新时再补内容
  • Notebook 暂不展开

后续更新

  • 训练中断后的恢复
  • 分布式 checkpoint 保存 / 加载
  • 异步 checkpoint
  • 显存抖动和优雅降级

Released under the MIT License.