中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

谷歌分布式低通信优化技术训练大模型的方法更具优势

 青蛙科技

下载贤集网APP入驻自媒体

在大模型领域,数据并行训练(Data-Parallel)方法占据着核心地位,它是训练大模型的基础技术之一。然而,随着模型规模的不断增大,数据并行训练方法的通信开销和内存限制等缺点日益凸显。为此,Google DeepMind 此前研发出一种名为 DiLoCo(分布式低通信优化,Distributed Low-Communication Optimization)的方法,其具备减少通信开销和提高扩展性等优势。

近日,来自 Google Research 和 Google DeepMind 的研究人员发现 DiLoCo 竟然具备更多优势。研究中,他们研究了在固定计算预算之下训练大模型时 DiLoCo 的 Scaling Law 行为,借此揭示了 DiLoCo 一系列更通用的优点:包括其能够增加最佳 batch 大小、能够提高下游规模的泛化能力、能够在固定 token 预算之下改善评估损失。

最新回复
发布回复
回复青蛙科技:大模型训练里数据并行训练本来挺重要,可模型一大,毛病就出来了,好在 DiLoCo 有减少通信开销这优势,这下可解决大问题啦!
回复青蛙科技:之前就知道 DiLoCo 能减少通信开销,现在又发现这么多优点,能增加最佳 batch 大小,这对大模型训练帮助太大了!
回复青蛙科技:DiLoCo 还能提高下游规模的泛化能力,在固定 token 预算下改善评估损失,这以后大模型训练效率不得大大提高

为您推荐

热门交流