英伟达展示 Hopper 超级计算机,Intel Gaudi2 的性价比是 H100 的 4 倍
在最新一轮 MLPerf 训练 v3.1 的结果中,尽管大部分成绩并不激动人心,但两个结果引人注目。首先,NVIDIA (英伟达)使用 MLPerf 来展示其最新的霍珀(Hopper)一代超级计算机。其次,非常少见的是,英特尔和 NVIDIA 都在宣传英特尔 Gaudi 2 加速器在价格/性能方面的出色表现。
在封闭部门和开放部门之间,共有 209 个结果跑过 83 种不同的配置。开放部门仅提交了两种配置,每种配置只有一个不同的结果。MLPerf 训练 v3.1 有九个测试,所以平均每个提交配置的基准测试完成率只有约 27%。209 个结果中只有 14 个不是 NVIDIA 的 GPU。其中六个是英特尔展示了其 Xeon Sapphire Rapids 在 AI 中的性能,为行业 CPU 性能设定了基线。
第一个重要的信息是,NVIDIA 正在展示其新的超级计算机。这台被称为 NVIDIA Eos 的系统配备了 10,752 个 H100 GPU,通过 400Gbps Quantum-2 InfiniBand 连接。从某种角度看,如果一家公司要在开放市场上购买这样的系统,其价格很可能超过 4 亿美元。
有了这台庞大的超级计算机,NVIDIA 在 MLPerf 训练套件中赢得了不同 GPU 数量的胜利。它甚至与运行 10,752 NVIDIA H100 GPUs 的 Microsoft Azure 云服务相匹配。
一般来说,提交 MLPerf 训练结果的其他公司如此之少,以至于 NVIDIA 不得不制作一个总结幻灯片,显示很少有其他公司使用其 MLPerf 训练套件。从 AMD 的财报中可以知道,它正在出货 MI300 变体,这将是 MLPerf 的「商业可用」产品。我们还知道,像 Cerebras 这样的公司没有 MLPerf 就售出了价值 10 亿美元以上的晶圆规模集群。MLPerf 推理通常非常适合供应商之间的比较。MLPerf 训练已经失去了这一点,除了一个例外。
查看 Stable Diffusion 测试,人们可能会看到 NVIDIA 的速度大约是英特尔 Gaudi2 的 8 倍。然而,当我们了解细节时,NVIDIA 使用的 H100 GPU 数量是英特尔的 16 倍才能达到这种速度提升。把这个放在一个视角中,我们预期的是,要快 8 倍,成本会超过 32 倍。换句话说,NVIDIA 的营销幻灯片在这里显示,与 NVIDIA 相比,英特尔在每美元性能方面的表现介于相当接近和 4 倍之间(约 8 倍的性能,约 32 倍的成本)。
在 64 个加速器的直接比较中,NVIDIA 大约快两倍。这对英特尔来说是一个很好的结果,因为它使用的加速器成本不到 NVIDIA 对手的一半,而且系统架构要简单得多。
NVIDIA 在调整 H100 方面比英特尔在 Gaudi2 方面更进一步,但此次 MLPerf 的重大进展是支持 FP8,这导致了约 2 倍的性能提升。
英特尔现在有了一个有趣的玩法。Gaudi2 的表现似乎介于 A100 和 H100 之间,但从了解的情况来看,它的成本不到 NVIDIA的 H100 部分的一半,如果考虑到整个系统成本,可能会更低。
英特尔 Gaudi2 获得了足够的关注,以至于供应受限,但没有 H100 那么严重。
除了 NVIDIA 之外,大部分行业都放弃了 MLPerf 训练,只剩下一些英特尔的结果和一个 Google 的结果。NVIDIA H100 SXM5 是当今的大型 GPU,很少有使用 MLPerf 挑战它的。只有少数公司能够将其硬件和软件扩展到超过 1000 个加速器,所以在顶端,竞争并不激烈。如果您六个月后想要 10000 个加速器,那么您很可能是在购买 NVIDIA H100 SXM5 系统。
拥有 NVIDIA Eos 超级计算机,NVIDIA 拥有一台内部价值超过 4 亿美元的机器。目前,可能没有其他任何公司能够在这一点上与之匹敌。当然,这是零售价值,不是 NVIDIA 支付自己部件的价格,但这是一台大机器。
NVIDIA 争夺规模的有趣结果是,它展示了英特尔的 Gaudi 2 可以以四倍的性价比提供 Stable Diffusion 性能。NVIDIA 试图展示它在图表上有一个更长的条形图,但在争取更长条形图的比赛中,它失去了规模效率,给了英特尔一个大胜利。
- 0000
- 0006
- 0000
- 0000
- 0001