本开源项目主要是跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着在 NVIDIA、ASCEND 等芯片厂商构建算力层面,所用到的、积累、梳理得到大模型系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究,共同促进学习讨论。
课程内容大纲#
课程主要包括以下八大模块:
第一部分,对大模型系统和本课程内容进行系统概述大模型系统概述,
第二部分,AI 计算集群的介绍AI 计算集群,主要是整体了解 AI 计算集群内容。
第三部分,通信与存储的介绍通信与存储,大模型训练和推理的过程中都严重依赖于网络通信,因此会重点介绍通信原理、网络拓扑、组网方案、高速互联通信的内容。存储则是会从节点内的存储到存储 POD 进行介绍。
第四部分,集群中容器和云原生技术的介绍集群容器与云原生,从容器、云原生时代到 Docker 和 K8S 技术的应用,这其中包含实践内容: K8S集群搭建与实践。
第五部分,涉及到大模型,就不得不提大模型训练大模型训练,训练的基础是并行,加速是核心,后训练、强化学习和微调是关键,验证评估是目的。
第六部分,当下大模型的热点之一:推理大模型推理,首先介绍推理的基本概念,其次介绍如何对推理进行加速,之后从架构层次进行调度加速,输出采样,针对大模型进行压缩,这其中包含以下三个实践:1.长序列推理;2.输出采样;3.大模型压缩。
第七部分,介绍大模型所使用的算法和数据结构大模型算法与数据,首先介绍 Transformer 与 MOE 架构,之后针对图文生成与理解、视频语音大模型和数据工程进行介绍。
第八部分,介绍大模型在各行各界应用的介绍大模型应用,首先介绍大模型的典型应用场景,之后深入进阶应用,接着梳理大模型应用面临的挑战和伦理问题,最后进行未来展望。
课程设立目的#
本课程主要为本科生高年级、硕博研究生、大模型系统从业者设计,帮助大家:
完整了解大模型,并通过实际问题和案例,来了解大模型的系统设计。
介绍前沿系统架构和 AI 相结合的研究工作,了解主流框架、平台和工具来了解大模型系统。
先修课程: C++/Python,计算机体系结构,人工智能基础
课程目录内容#
=== 一. 大模型系统概述 ===
=== 四. 集群容器与云原生 ===
=== 八. 大模型应用 ===
备注#
文字课程开源在 AIInfra,系列视频托管B 站和油管,PPT 开源在github,欢迎取用!!!
非常希望您也参与到这个开源项目中,B 站给 ZOMI 留言哦!
欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!
请大家尊重开源和 ZOMI 的努力,引用 PPT 的内容请规范转载标明出处哦!