分布式并行基础

Contents

分布式并行基础#

分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体，简单增加机器数量并不能提升算力，需要有并行策略和通信设计，才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。

内容大纲#

大纲	小节	链接
分布式并行	01 分布式并行框架介绍	PPT, 视频
分布式并行	02 DeepSpeed介绍	PPT, 视频
分布式并行	03 优化器并行ZeRO1/2/3原理	PPT, 视频
分布式并行	04 Megatron-LM代码概览	PPT, 视频
分布式并行	05 大模型并行与GPU集群配置	PPT, 视频
分布式并行	06 大模型并行与GPU集群配置	PPT, 视频
分布式并行	07 Megatron-LM TP原理	PPT, 视频
分布式并行	08 Megatron-LM TP 代码解析	PPT, 视频
分布式并行	09 Megatron-LM SP 代码解析	PPT, 视频
分布式并行	10 Megatron-LM PP 基本原理	PPT, 视频
分布式并行	11 流水并行1F1B/1F1B Interleaved原理	PPT, 视频
分布式并行	12 Megatron-LM 流水并行PP代码解析	PPT, 视频

备注#

文字课程内容正在一节节补充更新，每晚会抽空继续更新正在 AISys ，希望您多多鼓励和参与进来！！！

文字课程开源在 AISys，系列视频托管B 站和油管，PPT 开源在github，欢迎取用！！！

非常希望您也参与到这个开源课程中，B 站给 ZOMI 留言哦！

欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦！

希望这个系列能够给大家、朋友们带来一些些帮助，也希望自己能够继续坚持完成所有内容哈！