分布式并行基础#
分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体,简单增加机器数量并不能提升算力,需要有并行策略和通信设计,才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。
内容大纲#
大纲 |
小节 |
链接 |
---|---|---|
分布式并行 |
01 分布式并行框架介绍 |
|
分布式并行 |
02 DeepSpeed介绍 |
|
分布式并行 |
03 优化器并行ZeRO1/2/3原理 |
|
分布式并行 |
04 Megatron-LM代码概览 |
|
分布式并行 |
05 大模型并行与GPU集群配置 |
|
分布式并行 |
06 大模型并行与GPU集群配置 |
|
分布式并行 |
07 Megatron-LM TP原理 |
|
分布式并行 |
08 Megatron-LM TP 代码解析 |
|
分布式并行 |
09 Megatron-LM SP 代码解析 |
|
分布式并行 |
10 Megatron-LM PP 基本原理 |
|
分布式并行 |
11 流水并行1F1B/1F1B Interleaved原理 |
|
分布式并行 |
12 Megatron-LM 流水并行PP代码解析 |
备注#
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AISys ,希望您多多鼓励和参与进来!!!
文字课程开源在 AISys,系列视频托管B 站和油管,PPT 开源在github,欢迎取用!!!
非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!
欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!