做cg的网站,外链收录网站,昆明哪些做网站建设的公司,设计网站 behance常见的分布式并行策略(分布式训练) 文章目录 一. 为什么分布式训练越来越流行二. 常见的并行策略2.1 数据并行2.2 模型并行2.3 流水并行2.4 混合并行二. 参考文献一. 为什么分布式训练越来越流行 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广…
文章目录
- 一. 为什么分布式训练越来越流行
- 二. 常见的并行策略
- 2.1 数据并行
- 2.2 模型并行
- 2.3 流水并行
- 2.4 混合并行
- 二. 参考文献
一. 为什么分布式训练越来越流行
- 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是 模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。
- 模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为