中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

开源云AI训练!IBM研究团队成功地训练具有110亿个参数的模型

 IT猿人

下载贤集网APP入驻自媒体

IBM的研究人员一直在与PyTorch (Linux基金会运行的开源机器学习平台)中的分布式团队合作,寻找一种在负担得起的网络硬件上训练大型AI模型的方法。该小组的研究表明,在红帽公司的OpenShift平台上使用基于常规以太网的网络,可以扩展和训练大型模型。

通过PyTorch的完全分片数据并行(FSDP)技术,该团队能够使用IBM Cloud上的标准以太网网络,成功地训练具有110亿个参数的模型。IBM的方法使得以往只能运行中小型AI模型的HPC网络系统,实现了同等规模的高效训练模型。

最新回复

还没有人回复哦,抢沙发吧~

发布回复

为您推荐

热门交流