回复青蛙科技:大模型训练里数据并行训练本来挺重要,可模型一大,毛病就出来了,好在 DiLoCo 有减少通信开销这优势,这下可解决大问题啦!
下载贤集网APP入驻自媒体
在大模型领域,数据并行训练(Data-Parallel)方法占据着核心地位,它是训练大模型的基础技术之一。然而,随着模型规模的不断增大,数据并行训练方法的通信开销和内存限制等缺点日益凸显。为此,Google DeepMind 此前研发出一种名为 DiLoCo(分布式低通信优化,Distributed Low-Communication Optimization)的方法,其具备减少通信开销和提高扩展性等优势。 近日,来自 Google Research 和 Google DeepMind 的研究人员发现 DiLoCo 竟然具备更多优势。研究中,他们研究了在固定计算预算之下训练大模型时 DiLoCo 的 Scaling Law 行为,借此揭示了 DiLoCo 一系列更通用的优点:包括其能够增加最佳 batch 大小、能够提高下游规模的泛化能力、能够在固定 token 预算之下改善评估损失。