下载贤集网APP入驻自媒体
IBM的研究人员一直在与PyTorch (Linux基金会运行的开源机器学习平台)中的分布式团队合作,寻找一种在负担得起的网络硬件上训练大型AI模型的方法。该小组的研究表明,在红帽公司的OpenShift平台上使用基于常规以太网的网络,可以扩展和训练大型模型。 通过PyTorch的完全分片数据并行(FSDP)技术,该团队能够使用IBM Cloud上的标准以太网网络,成功地训练具有110亿个参数的模型。IBM的方法使得以往只能运行中小型AI模型的HPC网络系统,实现了同等规模的高效训练模型。