top of page

了解Nvidia Blackwell GPU的内部数据流及其功耗优化技术

英伟达 Blackwell GPU 代表了图形处理技术的重大进步。其设计重点在于高效的数据传输、高速计算和智能电源管理。了解这款 GPU 内部的数据流向,有助于我们理解英伟达如何在性能和能效之间取得平衡,这对于满足现代计算需求至关重要。


本文将深入剖析 Blackwell GPU 的内部数据流,解释其如何与内存进行数据传输、寄存器的作用、计算过程的执行位置以及支持这些过程的缓存结构。此外,我们还将探讨英伟达在不牺牲速度的前提下降低功耗的技术。



英伟达 Blackwell GPU 芯片的特写视图,显示了其内部电路布局。


数据如何在内存和GPU之间传输

Blackwell GPU 的核心工作原理是在其内存系统和处理单元之间进行数据传输。该 GPU 使用多级内存层次结构来平衡速度和容量:


  • 全局内存(VRAM):这是容量最大、速度最慢的内存池,通常为 GDDR6X 或更新的型号。它用于存储纹理、帧缓冲区和大型数据集。

  • L2 缓存: L2 缓存位于全局内存和 GPU 核心之间,通过将频繁访问的数据存储在更靠近计算单元的位置来降低延迟。

  • 共享内存/L1缓存:每个流式多处理器(SM)都有一个更小、更快的共享内存,用作L1缓存,从而实现同一块内线程之间的快速数据共享。


当GPU需要数据时,它首先检查L1缓存。如果找不到数据,则检查L2缓存,必要时还会检查全局内存。这种分层方法最大限度地减少了慢速内存访问,从而提高了吞吐量。


数据传输通过连接这些内存层的高带宽内部总线进行。Blackwell 架构采用先进的内存控制器,能够调度和优先处理数据请求,从而减少瓶颈。它还支持异步数据传输,允许 GPU 在继续计算的同时获取数据。


寄存器在数据处理中的作用

寄存器是GPU核心内部最小、速度最快的存储单元。GPU上运行的每个线程都有自己的一组寄存器,用于保存计算过程中的临时变量和中间结果。


  • 快速访问:寄存器提供近乎即时的数据访问,比任何缓存或内存都要快得多。

  • 线程隔离:由于每个线程都有私有寄存器,这可以防止数据冲突并实现大规模并行处理。

  • 容量有限:每个线程的寄存器数量有限,因此高效使用寄存器对于避免数据溢出到速度较慢的共享内存或缓存至关重要。


在 Blackwell GPU 中,Nvidia 改进了寄存器文件设计,以提高容量并降低访问延迟。这有助于将更多数据保存在靠近计算单元的位置,从而减少对速度较慢的内存读取操作的需求。


计算发生的地方:流式多处理器和张量核心

Nvidia Blackwell GPU 主要在其流式多处理器 (SM)中执行计算。每个 SM 包含多个 CUDA 核心,用于处理整数和浮点运算。这些核心并行执行数千个线程,使 GPU 在图形渲染和通用计算方面都非常高效。


  • CUDA 核心:处理标准算术和逻辑运算。

  • 张量核心:专为矩阵运算而设计的专用单元,可加速人工智能和机器学习工作负载。

  • RT核心:专门用于光线追踪计算,改善实时光照和阴影效果。


在每个SM(子系统)中,调度器将指令分发给CUDA核心和张量核心。结果会暂时存储在寄存器或共享内存中,然后再写回缓存或全局内存。


支持数据流的缓存结构

缓存对于降低内存延迟和提高吞吐量至关重要。Blackwell GPU 具有多个缓存层:


  • L1 缓存/共享内存:速度快、片上内存,在 SM 中的线程之间共享。它存储线程经常访问或共享的数据。

  • 二级缓存:比一级缓存更大但速度更慢,所有SM共享。它充当全局内存和SM之间的缓冲区。

  • 纹理缓存:专门用于纹理数据的缓存,针对图形工作负载中常见的空间局部性进行了优化。


这些缓存减少了缓慢的全局内存访问次数。英伟达在 Blackwell 架构中采用的缓存设计还包括自适应替换策略,优先将最有用的数据保留在靠近计算单元的位置。


Blackwell GPU 中的功耗优化技术

在现代GPU中,能效至关重要,尤其对于笔记本电脑和数据中心而言。Nvidia Blackwell GPU采用了多种技术来降低功耗:


  • 动态电压频率调节 (DVFS): GPU 会根据工作负载需求调整其时钟频率和电压。当不需要全功率运行时,GPU 会降低运行速度并减少能耗。

  • 精细化电源门控: GPU 中空闲的部分(例如未使用的 SM 或张量核心)将被关闭以节省能源。

  • 高效的数据传输:通过最大限度地减少内存级别之间的数据传输并有效利用缓存,GPU 可以减少内存访问所消耗的能量。

  • 优化寄存器使用:减少寄存器溢出并将数据保存在快速寄存器中,可以降低耗电的内存操作。

  • 缓存自适应时钟:当工作负载较轻时,可以独立调整缓存速度以节省电量。


这些技术的结合,既能实现高性能,又能有效控制功耗。例如,在人工智能推理任务中,张量核心可以在不牺牲吞吐量的前提下,以优化的功耗水平运行。



从高角度观察Nvidia Blackwell GPU架构图,图中显示了数据流和电源管理模块。


实际示例:实时光线追踪任务中的数据流

考虑一个实时光线追踪工作负载,它需要大量的计算和快速的数据访问:


  1. 数据加载:场景几何体和纹理从全局内存加载到 L2 缓存中。

  2. 光线追踪计算: RT 核心执行相交测试,而 CUDA 核心处理着色计算。

  3. 中间结果:寄存器和共享内存存储临时数据,例如光线命中点和光照值。

  4. 缓存:频繁访问的纹理会保留在纹理缓存中,以加快着色速度。

  5. 电源管理:当某些 SM 不需要时,电源门控会降低其能耗,而 DVFS 会根据工作负载强度调整时钟速度。


该流程可确保流畅渲染,延迟极低,功耗可控。


要点总结


  • Nvidia Blackwell GPU 使用多级内存层次结构来加快数据访问速度。

  • 寄存器为计算提供快速、线程特定的存储空间。

  • 流式多处理器和专用核心执行大部分计算任务。

  • 缓存结构可以减少慢速内存访问,提高吞吐量。

  • DVFS 和电源门控等电源优化技术有助于平衡性能和能源消耗。


了解这些内部数据流和电源策略有助于解释英伟达如何在 Blackwell GPU 中实现高性能的同时高效节能。对于开发者和发烧友而言,这些知识可以指导他们更好地进行软件设计和硬件利用。


bottom of page