【转载】分布式训练和集合通信
转载自 OneFlow 大佬:【深度学习】— 分布式训练常用技术简介
文章目录
- 1 集合通信(Collective communication)
-
- 1.1 Broadcast&Scatter
- 1.2 Reduce
- 1.3 All reduce
- 1.4 Gather
- 2 集合通信库
- 3 各通信库&All reduce
-
- 3.1 OpenMPI
- 3.2 NCCL Allreduce
- 3.3 Gloo Allreduce
- 3.4 总结
分布式框架采用的常见底层支撑库,可以归类为以下三类: