下载贤集网APP入驻自媒体
人工智能处理需要跨硬件和软件平台的全栈创新,以解决神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率、减少内存使用并优化互连带宽。 为了实现这些好处,业界已从 32 位精度转向 16 位,现在甚至是 8 位精度格式。Transformer网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。NVIDIA、Arm 和英特尔共同撰写了一份白皮书《深度学习的 FP8 格式》,描述了 8 位浮点 (FP8) 规范。它提供了一种通用格式,可通过优化内存使用来加速 AI 开发,并适用于 AI 训练和推理。此 FP8 规范有两个变体,E5M2 和 E4M3。 这种格式在 NVIDIA Hopper 架构中原生实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统(包括 AI 框架)在为开发人员实施它时所做的工作。