AMD Instinct MI350系列GPU电路设计的创新及其对机器学习和人工智能处理的影响

Claude Paugh
2025年12月11日
讀畢需時 4 分鐘

机器学习 (ML) 和人工智能 (AI) 应用的快速发展对强大高效的硬件提出了更高的要求。AMD 最新推出的 AMD Instinct™ MI350 系列 GPU 旨在通过全新的电路设计和可扩展性方案来满足这些需求。本文将探讨 MI350 GPU 背后的关键设计选择，将其与其他 ML/AI 处理器进行比较，并分析其在功耗和可扩展性方面的优势。

AMD Instinct MI350 系列的电路设计选择

AMD Instinct MI350 GPU 采用精细架构，兼顾了强大的计算能力和出色的能效。其核心设计在于运用了 AMD 的 CDNA 3 架构，该架构通过专用的计算单元和内存子系统，专注于加速 AI 工作负载。

电路设计的关键特征

针对人工智能优化的计算单元

MI350 集成了大量计算单元 (CU)，旨在处理机器学习任务中常见的矩阵运算。这些计算单元支持混合精度计算，包括 FP64、FP32、FP16 和 INT8，可根据工作负载需求灵活调整精度。

高带宽存储器（HBM3）

这些GPU采用HBM3显存，与传统的GDDR显存相比，带宽显著提高。这减少了向计算单元输入数据时的瓶颈，对于大规模AI模型至关重要。

先进互连

AMD采用高速Infinity Fabric互连架构，高效连接多个MI350 GPU。该架构支持低延迟通信和数据共享，这对于分布式机器学习训练至关重要。

专用人工智能加速器

与一些仅依赖通用计算单元的竞争对手不同，MI350 包含专用的 AI 加速器，可加速张量运算。这些加速器提高了深度学习框架的吞吐量。

电路布局创新

MI350 的电路布局着重于最大限度地降低延迟和功耗。AMD 采用先进的晶体管设计和电源门控技术，动态地关闭芯片中未使用的部分。这种方法既能降低空闲功耗，又不会牺牲峰值负载下的性能。

AMD Instinct GPU 设计与其他机器学习/人工智能处理器的比较

机器学习/人工智能处理器市场涵盖了英伟达、英特尔以及Graphcore和Cerebras等专业初创公司的产品。每家供应商在电路设计和架构方面都采用了不同的方法。

相似之处

混合精度支持

与 NVIDIA 的 Tensor Core 和 Intel 的 Xe-HPG 架构一样，AMD Instinct GPU 支持混合精度计算，以平衡速度和精度。

高带宽内存使用

大多数现代AI GPU都使用HBM或类似的高速内存来高效处理大型数据集。MI350采用HBM3也符合这一趋势。

可扩展互连

高效的多GPU通信是一项常见功能。AMD的Infinity Fabric可与NVIDIA的NVLink和Intel的Compute Express Link (CXL)相媲美。

差异

开放生态系统关注

AMD倾向于强调开放标准和与开源AI框架的兼容性。这与NVIDIA更为封闭的CUDA生态系统形成鲜明对比。

能效策略

AMD的动态电源门控和晶体管级优化技术着重降低空闲功耗。而一些竞争对手则以牺牲基础功耗为代价，优先追求峰值性能。

AI加速器集成

NVIDIA 将张量核心紧密集成到 GPU 核心中，而 AMD 则将 AI 加速器作为独立单元进行分离。这种模块化方法能够更灵活地平衡工作负载。

功耗考量

对于通常在数据中心持续运行的 AI 工作负载而言，电源效率至关重要。

动态电源管理

MI350采用精细的电源门控技术来关闭不活跃的电路。这可以降低机器学习训练或推理等低负载阶段的功耗。

热设计功率（TDP）

MI350系列的目标TDP范围兼顾性能和散热需求，因此适用于无需过多散热基础设施的高密度服务器部署。

每次运行能耗

AMD致力于降低每次浮点运算的能耗。对于需要进行数十亿次运算的大规模人工智能模型而言，这一指标至关重要。

AMD Instinct MI350 GPU 的可扩展性

对于训练超出单个 GPU 处理能力的大型 AI 模型而言，可扩展性至关重要。

多GPU集群

利用 Infinity Fabric，可以将多个 MI350 GPU 连接起来形成集群。这使得海量数据集和模型的并行处理成为可能。

软件支持

AMD 提供软件工具和库，支持在 MI350 GPU 上进行分布式训练。这包括对常用机器学习框架进行优化的版本。

模块化设计

AI加速器和计算单元的分离使得系统设计人员能够根据工作负载需求定制配置，从而提高可扩展性。

从高角度拍摄的安装在服务器主板上的 AMD Instinct MI350 GPU

对机器学习和人工智能处理的实际影响

AMD Instinct MI350 GPU 的设计选择为人工智能从业者带来了切实的好处：

更快的训练速度

高计算密度和快速内存的结合减少了瓶颈，加快了模型训练速度。

降低运营成本

更高的能效意味着数据中心可以用更少的能源运行人工智能工作负载，从而降低成本。

跨工作量的灵活性

MI350 支持混合精度计算和模块化 AI 加速器，能够处理从自然语言处理到计算机视觉等各种 AI 任务。

更好的多GPU扩展性

高效的互连和软件支持使得在多个 GPU 上扩展 AI 工作负载变得更加容易，而不会损失性能。