报告：数据质量是实施生成式人工智能的最大障碍

站长网2024-02-06 09:58:421阅

**划重点:**

- 📊 **数据领导者的调查:** 一项由Informatica进行的数据领导者调查表明，数据质量是实施生成式人工智能（GenAI）时面临的最大障碍。

- 🛠️ **数据管理工具和数据源:** 企业使用的数据管理工具数量以及大量企业应对1000多个独立数据源的情况也对GenAI项目产生了影响。

- 📈 **GenAI的实施和挑战:** 据调查，45%的公司已经以某种形式实施了GenAI，而另有53%计划实施。

Informatica最新的CDO Insights2024报告揭示，对于实施生成式人工智能（GenAI），数据质量是最大的障碍。该报告基于对全球大型企业中600名数据领导者的调查，发现45%的公司已经以某种形式实施了GenAI，而另有53%计划实施。对于几乎没有人在14个月前知晓的技术而言，只有2%的公司表示GenAI不适用于他们，这是一个非常低的数字。

然而，要成功实施GenAI并不像注册一个OpenAI账户，让GPT自由运行那么简单。尽管今天的预训练大型语言模型（LLMs）比过去的自然语言处理技术更易于使用，但拥有良好的数据仍然对于使一切正常运行至关重要，无论是从头开始训练模型、微调预构建模型，还是在运行时提示LLM。糟糕的数据将同样摧毁GenAI项目，就像它会摧毁任何类型的人工智能或机器学习项目一样。

在这方面，Informatica的调查发现，正在部署GenAI或计划部署GenAI的数据领导者中有42%（约600人中的588人）将数据质量列为GenAI成功的头号关切。报告显示，其他GenAI的关切包括数据隐私和保护、AI伦理、用于培训和微调语言模型的数据数量以及AI治理。

这些数据管理工具在Informatica的调查基础上被广泛使用。实际上，这家总部位于加利福尼亚州Redwood City的公司报告说，100%的调查参与者表示他们正在投资于支持数据战略和优先事项的数据管理能力，这无疑是一个很好的迹象。

然而，对Informatica来说，这个100%的数字也有一线曙光。该公司发现，58%的受访者使用了五种或更多种数据管理工具。此外，这些数据管理工具中的大多数在49%的受访者中并非作为云托管服务提供。

更多的数据通常意味着更多的洞察和更好的信号。但根据Informatica的说法，五分之二的公司表示他们正在处理1000个或更多个数据源。近80%的受访者表示他们预计2024年数据源的数量将增加。

39%的数据领导者报告称，在2024年，改善GenAI用例的数据可靠性和一致性是优先事项。另有39%的人将在2024年设定建立数据驱动文化和提高数据素养的目标，而38%的人将在2024年设定改善对数据和数据流程的治理的目标。

数据管理已经成为GenAI的关键推动因素并非令Jitesh Ghai，Informatica的首席产品官感到惊讶。

Ghai在新闻稿中说:“毫不奇怪，无论地区还是行业，生成式人工智能的实施和成功所需的数据策略仍然主导着大多数数据领导者的带宽。”他表示:“虽然这些领导者必须克服许多技术和组织上的障碍，但很明显，对于解锁GenAI的巨大潜力并使企业完全掌控其不断扩大的数据资产，全面、高度集成的数据管理能力的投资是关键。”