回复人工智源库:没看明白ai和通讯技术咋结合的
下载贤集网APP入驻自媒体
腾讯Angel机器学习平台也获得了本年度世界互联网大会领先科技奖。评选委员会点评腾讯Angel机器学习平台:突破万亿级模型分布式训练和推理以及大规模应用部署等难题。据了解,突破主要在通信、效率、规模三方面实现。 通信:从网卡到交换机,再到路由协议,腾讯自研的RDMA网络实现了集群高速互联,单节点带宽达到3.2T,相比于同类领先产品,性能提升30%,成本降低70%。 效率:自研了训练/推理框架,提出显存加主存的一体化机制,实现多维并行和算子优化,相比开源框架,训练性能提升2.6倍,推理速度提升2.3倍。 规模:实现了单任务万卡的线性扩展,GPU集群加速比从50%提升到99%。