亚马逊推出搭载英伟达 H100 GPU 的新 Amazon EC2 P5 实例 助力 AI 训练与推理
站长之家(ChinaZ.com) 7月27日消息:AWS 用户现在可以访问 AI 训练和推理领域业界基准测试中展示的领先性能。
图片来自 NVIDIA
这家云计算巨头正式推出了由英伟达 H100 Tensor Core GPU 提供支持的新 Amazon EC2 P5 实例。该服务允许用户通过浏览器一键扩展生成式 AI、高性能计算(HPC)和其他应用程序。
据官方介绍,英伟达 H100 GPU 通过包括第四代 Tensor Cores、新的 Transformer 引擎用于加速 LLMs 以及最新的 NVLink 技术(可让 GPU 之间的通信速度达到 900GB/秒)等架构创新提供超级计算级别的性能。
Amazon EC2 P5 实例非常适合训练和运行日益复杂的 LLMs 和计算机视觉模型的推断。这些神经网络驱动着最具挑战性和计算密集型的生成式 AI 应用,包括问题回答、代码生成、视频和图像生成、语音识别等。
P5 实例可以部署在超大规模集群中,称为 EC2 UltraClusters,由高性能计算、网络和云存储组成。每个 EC2 UltraCluster 都是一台强大的超级计算机,使客户能够在多个系统上运行最复杂的 AI 训练和分布式 HPC 工作负载。
因此,客户可以在需要计算节点之间高水平通信的规模应用程序上运行 P5 实例。P5 实例采用由 AWS EFA 提供支持的 petabit 级非阻塞网络,为 Amazon EC2 实例提供 3,200 Gbps 的网络接口。
借助 P5 实例,机器学习应用程序可以使用 NVIDIA Collective Communications Library 来使用多达 20,000 个 H100 GPU。
英伟达 AI Enterprise 可帮助用户充分发挥 P5 实例的潜力,提供包括 100 多个框架、预训练模型、AI 工作流程和用于调整 AI 基础设施的工具在内的全套软件。
英伟达 AI Enterprise 旨在简化 AI 应用程序的开发和部署,解决构建和维护高性能、安全、云原生 AI 软件平台的复杂性。该软件可在 AWS Marketplace 上获得,提供持续的安全监控、定期修补常见漏洞、API 稳定性、企业支持以及访问英伟达 AI 专家的机会。
- 0000
- 0001
- 0000
- 0000
- 0002