研究称:英特尔Gaudi2技术在大语言模型推理方面媲美英伟达AI加速器
划重点:
- 📌 研究显示,英特尔的 Gaudi2技术在大规模语言模型推理方面与英伟达的 AI 加速器相媲美。
- 📌 Gaudi2的推理性能在解码方面与英伟达 H100系统相当,并且优于英伟达 A100。
- 📌 根据公共云定价,Gaudi2在训练和推理方面的性价比都超过了英伟达的 A100和 H100。
根据 Databricks 的最新研究,英特尔的 Gaudi2技术在大规模语言模型推理方面与业界领先的英伟达 AI 加速器相媲美。该研究发现,Gaudi2在解码方面的延迟与英伟达 H100系统相当,并且优于英伟达 A100。研究还发现,Gaudi2的推理性能比 H100和 A100实现了更高的内存带宽利用率。
不过,英伟达在顶级加速器的训练性能上仍然更强大。研究人员使用 Databricks 的 MosaicML LLM 工厂进行训练,发现 Gaudi2在单节点 LLM 训练性能方面仅次于英伟达 H100,达到了每芯片超过260TFLOPS 的性能。总体而言,根据公共云定价,Databricks 的研究报告显示,与 A100和 H100相比,Gaudi2在训练和推理方面具有最佳的性价比。
英特尔通过 MLcommons MLperf 基准测试来提供有关 Gaudi2训练和推理性能的自己的测试结果。Databricks 的新数据进一步验证了英特尔的 Gaudi 技术在性能方面的表现,这是来自第三方的验证。
英特尔在2019年以20亿美元收购了 AI 芯片初创公司 Habana Labs 及其 Gaudi 技术,并在此后几年中不断改进这项技术。厂商们通过参与行业标准基准测试来证明性能。无论是英伟达还是英特尔都经常参与 MLcommons MLPerf 的训练和推理基准测试,这些基准测试每年更新多次。在去年11月发布的最新的 MLPerf3.1训练基准测试中,英伟达和英特尔都声称刷新了 LLM 训练速度记录。几个月前的去年9月,也发布了 MLPerf3.1推理基准测试,英伟达和英特尔在该测试中也表现出了强劲的竞争性能。
虽然像 MLPerf 和 Databricks 的研究报告这样的基准测试非常有价值,但 Medina 指出,许多客户依靠自己的测试来确保硬件和软件堆栈适用于特定的模型和用例。他表示,软件堆栈的成熟度非常重要,因为人们对基准测试组织存在怀疑,厂商会对其进行优化以满足特定的基准测试要求。
据 Medina 介绍,MLPerf 是有其一定作用的,因为人们知道要提交结果,技术堆栈需要达到一定的成熟度水平。但他强调,客户不会依靠 MLPerf 的结果来做出业务决策。“MLPerf 的结果只是组织在进行测试之前使用的成熟度过滤器”,Medina 说道。
就在准备于2024年推出 Gaudi3AI 加速器技术之际,有关 Gaudi2的新数据也发布出来了。Gaudi2是采用7纳米工艺开发的,而 Gaudi3基于5纳米工艺,并将提供4倍的处理能力和双倍的网络带宽。Medina 表示,Gaudi3将于2024年发布并开始大规模生产。“Gaudi3是一个将 Gaudi2的性能优势发挥到极致的产品,它在性能上有了巨大的飞跃,从而在性价比和性能功耗比方面带来了优势。”
英特尔正在致力于将公司的高性能计算和 AI 加速器技术融合在一起。英特尔也继续看好其用于 AI 推理工作负载的 CPU 技术。英特尔最近宣布推出带有 AI 加速功能的第五代 Xeon 处理器。
“CPU 在推理中仍然占有相当大的比例,甚至微调在 CPU 上也可能有优势”,Medina 说道。“CPU 参与数据准备,并且当 AI 的计算密度极高时,它们与 Gaudi 加速器一起提供解决方案。因此,我们的总体策略是提供一系列解决方案。”
- 0000
- 0000
- 0003
- 0000
- 0000