Diy-LLM带你系统性学习大语言模型
一座为中文学习者量身打造的“LLM炼丹工坊”
我们希望这门 CS336 中文课程,不只是斯坦福原版的"汉化版",而是一座为中文学习者量身打造的"LLM炼丹工坊"。在这里,你亲手锻造理解、打磨代码、调控火候,最终炼出属于自己的大模型真丹。
学完这门课,你能得到什么?
| 章节 | 关键内容 | 配套作业 | 状态 |
|---|---|---|---|
| 前言 | 项目由来、背景及学习建议 | - | ✅ |
| 第1章 工具使用 | W&B 使用与实验追踪 | - | 📝 |
| 第2章 分词器 | 分词器原理与 BPE 实现 | 作业1 | ✅ |
| 第3章 PyTorch 与资源核算 | 训练原语、算力/显存估算 | - | ✅ |
| 第4章 语言模型架构与训练细节 | Transformer 架构与训练要点 | 作业1 | ✅ |
| 第5章 混合专家模型 | MoE 原理、路由与工程实践 | - | ✅ |
| 第6章 GPU 与相关优化 | GPU 基础与优化技巧 | 作业2 | ✅ |
| 第7章 GPU 高性能编程 | CUDA 与高性能编程 | 作业2 | ✅ |
| 第8章 分布式训练 | 并行范式与跨机训练 | 作业2 | ✅ |
| 第9章 Scaling Laws | 扩展定律与实验 | 作业3 | ✅ |
| 第10章 推理 | 推理性能与落地优化 | 作业6 | ✅ |
| 第11章 数据工程 | 数据清洗、构建与管理 | 作业4 | ✅ |
| 第12章 评估与基准测试 | 指标体系与评测方法 | 作业6 | ✅ |
| 第13章 大模型的基本训练流程 | 预训练、SFT、RL 流程 | 作业5 | ✅ |
| 第14章 可验证奖励的强化学习 | RLVR 思想与实践 | 作业5 | ✅ |
| 第15章 扩展内容 | - 什么是LLM推理? | - | 🔄 |
状态图例说明:✅ 已完成 🔄 更新中 📝 待完善 🚧 筹备中 ⏸️ 暂缓
| 作业 | 核心任务 | 状态 |
|---|---|---|
| 作业1:手搓大模型 | 实现 tokenizer、model architecture、optimizer,训练一个极简语言模型 | ✅ |
| 作业2:系统优化 | 性能分析与基准测试;用 Triton 实现 FlashAttention-2;构建分布式训练代码 | ✅ |
| 作业3:扩展定律 | 理解 Transformer 各组件功能;拟合 scaling law 预测模型扩展效果 | ✅ |
| 作业4:数据处理 | 将 Common Crawl 原始数据转换为预训练数据集,执行过滤与去重 | ✅ |
| 作业5:模型对齐 | 应用 SFT 与强化学习(如 GRPO)训练模型解决数学问题 | ✅ |
| 作业6:模型评估 | 使用 lm-evaluation-harness 和 evalscope 进行多维度评测(语言理解、常识推理、代码、数学推理) | ✅ |
# 克隆仓库
git clone https://github.com/datawhalechina/diy-llm.git
cd diy-llm
# 安装基础依赖(根据具体作业需求安装)1️⃣ 理论学习 → 按章节顺序阅读 docs/ 目录下的文档
2️⃣ 实践练习 → 完成 coursework/ 目录下的 6 个作业
3️⃣ 深入理解 → 阅读代码实现,理解每个组件的设计
CS336-Chinese-co-construction/
├── docs/ # 理论章节文档
│ ├── 前言/
│ ├── chapter1/ # 工具使用
│ ├── chapter2/ # 分词器
│ ├── chapter3/ # PyTorch 与资源核算
│ ├── chapter4/ # 语言模型架构与训练细节
│ ├── chapter5/ # 混合专家模型
│ ├── chapter6/ # GPU 与相关优化
│ ├── chapter7/ # GPU 高性能编程
│ ├── chapter8/ # 分布式训练
│ ├── chapter9/ # Scaling Laws
│ ├── chapter10/ # 推理
│ ├── chapter11/ # 数据工程
│ ├── chapter12/ # 评估与基准测试
│ ├── chapter13/ # 大模型的基本训练流程
│ ├── chapter14/ # 可验证奖励的强化学习
│ └── chapter15/ # 前沿扩展内容
├── coursework/ # 实践作业
│ ├── assignment1-basics/ # 作业1:手搓大模型
│ ├── assignment2-systems/ # 作业2:系统优化
│ ├── assignment3-scaling/ # 作业3:扩展定律
│ ├── assignment4-data/ # 作业4:预训练数据处理
│ ├── assignment5-alignment/ # 作业5:对齐
│ └── assignment6-evaluation/ # 作业6:评估
├── README.md # 项目说明
└── .gitignore # Git忽略配置理论部分可以正常学习,作业中的部分内容可以在 CPU 上调试,但完整训练需要 GPU。建议使用云服务平台。
我们在保留原版技术深度的基础上,针对中文学习者进行了本土化改造,包括中文讲解、作业实现、更详细的参考内容来源、国产模型案例等。
![]() 徐虎 项目负责人 | ![]() 李盛康 项目负责人 | ![]() 黎又榛 项目负责人 |
注:我们感谢每一位为项目做出贡献的开发者!
我们欢迎所有形式的贡献!无论是文档改进、代码优化、bug修复还是新内容添加,都是对项目的宝贵支持。
项目持续更新中,最新进展请查看 GitHub Releases 或提交记录。
本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。
如果这个项目对你有帮助,欢迎给个 Star ⭐️!
让更多人能够系统性地学习大语言模型构建技术
Made with ❤️ by the Datawhale