英伟达 H100 GPU(NVIDIA H100 Tensor Core GPU)是英伟达旗下的一款计算卡。

本页面主要目录有关于英伟达 H100 GPU的:发展历程、产品架构、产品性能、产品参数、产品售价、产品评价、相关事件、相关合集等介绍

英文名

NVIDIA H100 Tensor Core GPU

品牌

英伟达

上市时间

2022年3月22日

开发商

英伟达

生产厂商

英伟达

简介

2022年3月22日,英伟达在GTC技术大会上宣布了一款全新架构的GPU芯片,并将这款GPU芯片命名为H100,该款产品采取新一代的Hopper架构,拥有800亿个晶体管,并且采用了台积电的四纳米工艺。采用台积电4nm工艺,集成800亿晶体管,最高1.8万个CUDA核心,功耗为700W,配备80GB HBM3显存。H100计算卡有SXM、PCIe 5.0两种样式,其中PCIe版价格为24万元以上。

H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),可为多专家 (MoE) 模型提供高 9 倍的训练速度。2024年1月18日,马克·扎克伯格(Mark Zuckerberg)在旗下社交平台上宣布,Meta正在计划构建自己的AGI,并计划在2024年年底前获得约35万块来自英伟达的H100 GPU。

英伟达H100 GPU凭借英伟达可扩展的NVLink互连技术,最多可连接256个H100芯片,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生技术应用等。

发展历程

2022年3月22日,英伟达在GTC技术大会上宣布了一款全新架构的GPU芯片,并将这款GPU芯片命名为H100,该产品采用了台积电的四纳米工艺。

产品架构

英伟达 H100 GPU采取新一代的Hopper架构。

产品性能

加速计算的数量级提升

英伟达 H100 GPU使用 NVIDIA NVLink Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高 30 倍,从而提供对话式 AI。

AI 训练速度

H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件,为小型企业到大规模统一 GPU 集群提供高效的可扩展性。

深度学习推理

H100 进一步扩展了 NVIDIA 在推理领域的市场地位,其多项先进技术可将推理速度提高 30 倍,并提供超低的延迟。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可结合使用 FP8 和 FP16 精度,减少内存占用并提高性能,同时仍能保持大型语言模型的准确性。

高性能计算

H100 使双精度 Tensor Core 的每秒浮点运算 (FLOPS) 提升 3 倍,为 HPC 提供 60 teraFLOPS 的 FP64 浮点运算。融合 AI 的高性能计算应用可以利用 H100 的 TF32 精度实现 1 petaFLOP 的吞吐量,从而在不更改代码的情况下,实现单精度矩阵乘法运算。H100 还采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在动态编程算法(例如,用于 DNA 序列比对 Smith-Waterman)上比仅使用传统双路 CPU 的服务器快 40 倍。

加速数据分析

搭载 H100 的加速服务器可以提供相应的计算能力,并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性,凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS,NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。

提高资源利用率

H100 中的第二代多实例 GPU (MIG) 技术通过安全地将每个 GPU 分为 7 个独立实例,更大限度地提高每个 GPU 的利用率。凭借机密计算支持,H100 可实现端到端多租户的安全使用,非常适合云服务提供商 (CSP) 环境。使用支持 MIG 技术的 H100,基础架构管理员可对其 GPU 加速的基础架构作标准化处理,同时能够灵活地为 GPU 资源配置更精细的粒度,从而安全地为开发者提供正确的加速计算量,并确保其所有 GPU 资源得到充分利用。

产品参数

外形规格

H100 SXM

H100 PCIe

FP64

34 teraFLOPS

26 teraFLOPS

FP64 Tensor Core

67 teraFLOPS

51 teraFLOPS

FP32

67 teraFLOPS

51 teraFLOPS

TF32 Tensor Core

989 teraFLOPS*

756teraFLOPS*

BFLOAT16 Tensor Core

1979 teraFLOPS*

1,513 teraFLOPS*

FP16 Tensor Core

1979 teraFLOPS*

1,513 teraFLOPS*

FP8 Tensor Core

3958 teraFLOPS*

3026 teraFLOPS*

INT8 Tensor Core

3958 TOPS*

3026 TOPS*

GPU 显存

80GB

80GB

GPU 显存带宽

3.35TB/s

2TB/s

解码器

7 NVDEC 7 JPEG

7 NVDEC 7 JPEG

最大热设计功率 (TDP)

高达 700 瓦(可配置)

300-350 瓦(可配置)

多实例 GPU

最多 7 个 MIG @每个 10GB

外形规格

SXM

PCIe 双插槽风冷式

互连技术

NVLink:900GB/s PCIe 5.0:128GB/s

NVLink:600GB/s PCIe 5.0:128GB/s

服务器选项

NVIDIA HGX H100 合作伙伴和配备 4 或 8 个 GPU 的 NVIDIA 认证系统 ,配备 8 个 GPU 的 NVIDIA DGX H100

搭载 1 至 8 个 GPU 的合作伙伴系统及 NVIDIA 认证系统

NVIDIA AI Enterprise

附加组件

已包含

参考

产品售价

H100计算卡有SXM、PCIe 5.0两种样式,其中PCIe版价格为24万元以上。

产品评价

H100凭借英伟达可扩展的NVLink互连技术,最多可连接256个H100芯片,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生技术应用等。(第一财经评)

相关事件

2024年1月18日,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在旗下社交平台上宣布,Meta正在计划构建自己的AGI,即能够在绝大多数领域中都达到或超越人类智能水平的AI,并保证会向大众开放这一技术。为了搭建能够支持AGI愿景的基础设施,扎克伯格称Meta计划在2024年年底前获得约35万块来自英伟达的H100 GPU。