Nvidia表示,新框架使Pandas在GPU上的运行速度快了150倍
划重点:
- Nvidia的RAPIDS cuDF框架的新版本可使Pandas在GPU上运行时性能提升150倍。
- Pandas是一种广泛使用的Python数据框架,用于数据处理和分析,现在可在GPU上获得显著的性能提升。
- 新的Pandas加速模式允许未更改的Pandas代码在统一的CPU/GPU环境中运行,从而为数据科学家提供更快速的数据处理能力。
Nvidia最新发布的RAPIDS cuDF框架的新版本引起了广大数据科学家和Pandas用户的兴趣,因为它声称可以使Pandas在GPU上运行时性能提升150倍。Pandas是一种受欢迎的基于Python的数据框架,用于数据处理和分析。它是由Wes McKinney于2018年作为开源项目发布的,目前已经被全球约950万开发者广泛使用。
Nvidia的RAPIDS框架包括了cuDF,这是一个构建在Apache Arrow之上的Python GPU数据框架,它提供了一种类似Pandas的API,用于加载、过滤和操作数据。随着RAPIDS版本23.10的发布,cuDF已经更新,使Pandas代码可以在GPU加速环境中不经修改地运行。
新的Pandas加速模式使未更改的Pandas代码可以在统一的CPU/GPU环境中运行,并且性能提升高达150倍,Nvidia的产品营销经理Jay Rodge、高级技术产品经理Nick Becker和高级软件工程师Ashwin Srinath在一篇博客文章中写道。他们解释说:“cuDF一直以来都为用户提供了顶级的数据框架库性能,同时使用了类似Pandas的API。然而,采用cuDF有时需要绕过一些问题。”
其中一个问题是,一些Pandas功能在cuDF中尚未实施或支持,因此无法从GPU加速计算中受益。另一个问题是,需要为GPU和CPU执行设计单独的代码路径,以及在与其他PyData库互动时手动切换cuDF和Pandas。
Nvidia表示,这一新功能是为那些希望在数据规模不断增长并且Pandas性能下降的数据科学家而设计的。在cuDF的Pandas加速模式中,操作在GPU上尽可能运行,否则在CPU上(使用Pandas),并在必要时在底层同步。这使得用户可以获得统一的CPU/GPU体验,为Pandas工作流程提供卓越的性能。
Nvidia使用DuckDB的新版H2O.ai数据库样本测试了性能提升。测试是在一个5GB的数据集上进行的,包含了连接和高级分组操作。结果显示,在CPU上运行的Pandas平均需要约5分钟7秒来执行这两项任务,而在经过RAPIDS cuDF加速的Pandas上执行这两项任务的平均时间只需约1.5秒。
GPU加速的Pandas目前以beta版形式在RAPIDS版本23.10的开源项目中提供,公司表示它将很快添加到Nvidia AI Enterprise中。这一新功能将有望使更多数据科学家受益,特别是那些需要处理大规模数据的用户。
- 0001
- 0000
- 0000
- 0000
- 0000