回复网络野兽:高通信开销难题终于有了解决方案,GPU利用率提高了不少呢
下载贤集网APP入驻自媒体
6月5日消息,近日,西北农林科技大学携手美国纽约州立大学和云南大学,在国际计算机体系结构领域权威期刊《IEEE Transactions on Computers》上发表论文。西北农林科技大学刘斌教授为第一作者,纪泽宇、何臻力担任通讯作者。 论文提出创新混合并行训练方法GroPipe,针对大规模DCNN大模型训练负载不均衡和高通信开销难题,融合流水线模型并行与数据并行,构建“组内流水线+组间数据并行”架构,通过AMPA实现计算负载动态均衡调度,提升GPU资源利用率。同时,在反向传播阶段引入“基于分组的延迟异步通信”策略,减轻通信带宽压力,提升训练吞吐量。 实验显示,在ImageNet数据集上,GroPipe相比DP、Torchgpipe等主流方案,ResNet系列平均加速比达42.2%,VGG系列达79.2%,在BERT - base模型训练中性能提升最高达51%。