中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

腾讯Angel机器学习平台实现通信、效率、规模三方面突破

 人工智源库

下载贤集网APP入驻自媒体

腾讯Angel机器学习平台也获得了本年度世界互联网大会领先科技奖。评选委员会点评腾讯Angel机器学习平台:突破万亿级模型分布式训练和推理以及大规模应用部署等难题。据了解,突破主要在通信、效率、规模三方面实现。

通信:从网卡到交换机,再到路由协议,腾讯自研的RDMA网络实现了集群高速互联,单节点带宽达到3.2T,相比于同类领先产品,性能提升30%,成本降低70%。

效率:自研了训练/推理框架,提出显存加主存的一体化机制,实现多维并行和算子优化,相比开源框架,训练性能提升2.6倍,推理速度提升2.3倍。

规模:实现了单任务万卡的线性扩展,GPU集群加速比从50%提升到99%。

最新回复
发布回复

为您推荐

热门交流