Skip to content

第二部分:PyTorch 算法实战

🎯 本部分概览

本部分聚焦 PyTorch 级别的大模型实现,按“基础算子 -> 模型架构 -> 微调与训练技术 -> 对齐技术 -> 反向传播与显存优化 -> 核心推理优化 -> 高级推理优化 -> 分布式与扩展”组织。

学习组划分

学习组题目范围主题难度
2.1: 基础算子00-04Transformer 组件Easy-Medium
2.2: 模型架构05-08模型组装Medium
2.3: 微调与训练技术09-11SFT / LoRA / 调度器Medium
2.4: 对齐技术12-13RLHF / DPOMedium-Hard
2.5: 反向传播与显存优化14Autograd / BackwardHard
2.6: 核心推理优化15-17FlashAttention / Decoding / PagedAttentionHard
2.7: 高级推理优化18-20Speculative / Radix / QuantizationHard
2.8: 分布式与扩展21-25Checkpointing / ZeRO / ParallelismHard

零基础入门 6 Task

Task覆盖小节学习重点预期收获
Task 12.1PyTorch 入门与基础算子熟悉张量、模块、前向与 RMSNorm 的基本写法
Task 22.1激活函数与位置编码理解 SwiGLU 与 RoPE 的作用和实现方式
Task 32.1Attention 核心实现能串起 MHA / GQA,并理解 KV cache 的动机
Task 42.2模型块组装能把基础算子组装成 LLaMA3 Block,并认识 MoE Router
Task 52.2MoE 与结构技巧理解负载均衡损失和常见架构技巧
Task 62.3训练、微调与学习率策略看懂 SFT、LoRA 和学习率调度的完整训练闭环

环境边界(代码审计版)

  • 整体定位:CPU-first
  • 大多数 notebook:可在 CPU 环境下完成学习和 correctness 验证
  • 已确认需要 GPU 的 notebook21_Gradient_Checkpointing,其测试会读取真实 CUDA 显存峰值
  • 学习建议:为了保持体验一致,建议所有学习者使用同一套 Python 环境;GPU 作为后段实验和真实性能验证的增强条件,而不是第二部分的统一门槛

学习建议

  • 新手先看 2.1 -> 2.2 -> 2.3
  • 关注训练与对齐的同学看 2.3 -> 2.4 -> 2.5
  • 关注推理与规模化的同学看 2.6 -> 2.7 -> 2.8

前置页面

后续页面

题目与测试

部分题目的占位初始化、答案验证和本地测试方式,统一以 维护与发布手册使用指南 为准。

Released under the MIT License.