简介
Nvidia H20是H100GPU的简化版。Nvidia H20采用英伟达Hopper架构,拥有CoWoS先进封装技术,显存容量增大至96GB HBM3,GPU显存带宽4.0TB/s;FP8算力为296TFLOPs,FP16算力为148TFLOPS;HGX H20的优点是支持NVLink900GB/s高速互联功能,且采用SXM板卡形态,兼容英伟达8路HGX服务器规格。
研发背景
美国于2023年10月17日更新芯片出口新规,限制AI计算芯片出口。因此,英伟达为应对美国的芯片限售令,推出包括Nvidia H20在内的三款针对中国市场的AI芯片。

应用领域
Nvidia H20适用于垂类模型训练、推理。
组成结构
Nvidia H20采用英伟达Hopper架构,拥有CoWoS先进封装技术。
产品规格
Nvidia H20有一颗内容为96GB的HBM3(高性能内存),Nvidia H20的FP16稠密算力达到148TFLOPS(每秒万亿次浮点运算),是H100算力的15%左右,NVlink为900GB/s。
核心技术
CoWoS封装技术
CoWoS(Chip onWafer On Substrate)是一种2.5维的整合生产技术,先将芯片通过Chip on Wafer(CoW)的封装制程连接至硅晶圆,再把CoW芯片与基板(Substrate)连接,整合成CoWoS。
Hopper构架
Hopper采用先进的台积电4N工艺制造,拥有超过800亿个晶体管,采用五项突破性创新技术为NVIDIA H200 和 H100 Tensor Core GPU提供动力支持。在这些创新技术的加持下,新一代Hopper与上一代相比,在生成式AI训练和推理方面实现了较快的速度提升。
产品参数
参数项 | 参数值 |
GPU构架(GPU Architecture) | NVIDIA Hopper |
GPU存储(GPU Memory) | 96 GB HBM3 |
GPU存储器带宽(GPU Memory Bandwidth) | 4.0 TB/s |
INT8 | FP8 Tensor Core* | 296 | 296 TFLOPS |
BF16 | FP16 Tensor Core | 148 | 148 TFLOPS |
TF32 Tensor Core | 74 TFLOPS |
FP32 | 44 TFLOPS |
FP64 | 1 TFLOPS |
RT Core | N/A |
MIG | Up to 7 MIG |
L2缓存(L2 Cache) | 60 MB |
媒体解码器(Media Engine) | 7 NVDEC 7 NVJPEG |
功率(Power) | 400 W |
外形尺寸(Form Factor) | 8-way HGX |
传输速率(Interconnect) | Pce Gen5 x16:128GB/s NVlink:900GB/s |
Availability | PS:Nov 2023 MP:Dec 2023 |
以上参考: |
特色功能
HGX H20支持NVlink900GB/s高速互联功能,且采用SXM板卡形态,兼容英伟达8路HGX服务器规格。
相关事件
2024年5月24日,根据媒体报道,英伟达大幅削减供应中国市场的H20人工智能芯片价格。报道援引英伟达首席财务官Colette Kress表示:“我们预计,未来中国市场的竞争仍将非常激烈。”
产品评价
英伟达推出的HGX H20,无法满足万亿级大模型训练需求,但整体性能略高于910B,加上英伟达CUDA生态,从而阻击了在美国芯片限制令下,国产卡未来在中国AI芯片市场的唯一选择路径。(钛媒体 评)