发布与定位:2023 年末发布,2024 年 Q2 量产,基于相同 Hopper 架构,重点升级显存子系统,专为超大规模 LLM 推理、大模型长上下文微调、数据密集型 HPC设计,是 H100 的推理性能增强版NVIDIA。
核心升级与兼容性:无需重构数据中心基础设施,可直接兼容 H100 的硬件与软件环境;SXM 与 PCIe 形态齐全。
关键规格(核心升级点)
显存:141GB HBM3e(容量提升 76%),显存带宽4.8 TB/s(提升 43%);
计算:Tensor Core 与 Transformer Engine 保持架构一致,FP8 峰值算力提升至 3958 TFLOPS;
MIG:单个 GPU 最多拆为 7 个 18GB 实例(H100 为 10/12GB),更适配大模型推理的资源切分。
性能与场景:Llama2-70B 推理速度达 H100 的 1.9 倍,GPT-3 175B 推理提速 1.6 倍;适用于生成式 AI API 服务、长文本对话模型、生物医药分子动力学模拟、宇宙学数据处理等超大显存需求场景。


