简介
2022年3月22日,英伟达在GTC技术大会上宣布了一款全新架构的GPU芯片,并将这款GPU芯片命名为H100,该款产品采取新一代的Hopper架构,拥有800亿个晶体管,并且采用了台积电的四纳米工艺。采用台积电4nm工艺,集成800亿晶体管,最高1.8万个CUDA核心,功耗为700W,配备80GB HBM3显存。H100计算卡有SXM、PCIe 5.0两种样式,其中PCIe版价格为24万元以上。
H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),可为多专家 (MoE) 模型提供高 9 倍的训练速度。2024年1月18日,马克·扎克伯格(Mark Zuckerberg)在旗下社交平台上宣布,Meta正在计划构建自己的AGI,并计划在2024年年底前获得约35万块来自英伟达的H100 GPU。
英伟达H100 GPU凭借英伟达可扩展的NVLink互连技术,最多可连接256个H100芯片,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生技术应用等。
发展历程
2022年3月22日,英伟达在GTC技术大会上宣布了一款全新架构的GPU芯片,并将这款GPU芯片命名为H100,该产品采用了台积电的四纳米工艺。
产品架构
英伟达 H100 GPU采取新一代的Hopper架构。
产品性能
加速计算的数量级提升
英伟达 H100 GPU使用 NVIDIA NVLink Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高 30 倍,从而提供对话式 AI。
AI 训练速度
H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件,为小型企业到大规模统一 GPU 集群提供高效的可扩展性。
深度学习推理
H100 进一步扩展了 NVIDIA 在推理领域的市场地位,其多项先进技术可将推理速度提高 30 倍,并提供超低的延迟。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可结合使用 FP8 和 FP16 精度,减少内存占用并提高性能,同时仍能保持大型语言模型的准确性。
高性能计算
H100 使双精度 Tensor Core 的每秒浮点运算 (FLOPS) 提升 3 倍,为 HPC 提供 60 teraFLOPS 的 FP64 浮点运算。融合 AI 的高性能计算应用可以利用 H100 的 TF32 精度实现 1 petaFLOP 的吞吐量,从而在不更改代码的情况下,实现单精度矩阵乘法运算。H100 还采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在动态编程算法(例如,用于 DNA 序列比对 Smith-Waterman)上比仅使用传统双路 CPU 的服务器快 40 倍。
加速数据分析
搭载 H100 的加速服务器可以提供相应的计算能力,并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性,凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS,NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。
提高资源利用率
H100 中的第二代多实例 GPU (MIG) 技术通过安全地将每个 GPU 分为 7 个独立实例,更大限度地提高每个 GPU 的利用率。凭借机密计算支持,H100 可实现端到端多租户的安全使用,非常适合云服务提供商 (CSP) 环境。使用支持 MIG 技术的 H100,基础架构管理员可对其 GPU 加速的基础架构作标准化处理,同时能够灵活地为 GPU 资源配置更精细的粒度,从而安全地为开发者提供正确的加速计算量,并确保其所有 GPU 资源得到充分利用。
产品参数
外形规格 | H100 SXM | H100 PCIe |
FP64 | 34 teraFLOPS | 26 teraFLOPS |
FP64 Tensor Core | 67 teraFLOPS | 51 teraFLOPS |
FP32 | 67 teraFLOPS | 51 teraFLOPS |
TF32 Tensor Core | 989 teraFLOPS* | 756teraFLOPS* |
BFLOAT16 Tensor Core | 1979 teraFLOPS* | 1,513 teraFLOPS* |
FP16 Tensor Core | 1979 teraFLOPS* | 1,513 teraFLOPS* |
FP8 Tensor Core | 3958 teraFLOPS* | 3026 teraFLOPS* |
INT8 Tensor Core | 3958 TOPS* | 3026 TOPS* |
GPU 显存 | 80GB | 80GB |
GPU 显存带宽 | 3.35TB/s | 2TB/s |
解码器 | 7 NVDEC 7 JPEG | 7 NVDEC 7 JPEG |
最大热设计功率 (TDP) | 高达 700 瓦(可配置) | 300-350 瓦(可配置) |
多实例 GPU | 最多 7 个 MIG @每个 10GB |
外形规格 | SXM | PCIe 双插槽风冷式 |
互连技术 | NVLink:900GB/s PCIe 5.0:128GB/s | NVLink:600GB/s PCIe 5.0:128GB/s |
服务器选项 | NVIDIA HGX H100 合作伙伴和配备 4 或 8 个 GPU 的 NVIDIA 认证系统 ,配备 8 个 GPU 的 NVIDIA DGX H100 | 搭载 1 至 8 个 GPU 的合作伙伴系统及 NVIDIA 认证系统 |
NVIDIA AI Enterprise | 附加组件 | 已包含 |
参考
产品售价
H100计算卡有SXM、PCIe 5.0两种样式,其中PCIe版价格为24万元以上。
产品评价
H100凭借英伟达可扩展的NVLink互连技术,最多可连接256个H100芯片,可推动庞大的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生技术应用等。(第一财经评)
相关事件
2024年1月18日,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在旗下社交平台上宣布,Meta正在计划构建自己的AGI,即能够在绝大多数领域中都达到或超越人类智能水平的AI,并保证会向大众开放这一技术。为了搭建能够支持AGI愿景的基础设施,扎克伯格称Meta计划在2024年年底前获得约35万块来自英伟达的H100 GPU。