Informatica对数据领导者的新调查指出,数据质量是实施生成人工智能的首要障碍。公司正在使用的数据管理工具的数量,以及很大一部分公司正在处理1000多个单独的数据源,也给GenAI倡议带来了压力。
根据Informatica的CDO Insights 2024报告,该报告基于对全球大公司600名数据领导者的调查,45%的公司已经以某种形式实施了GenAI,而另有53%的公司计划实施(36%的公司表示他们将在两年内实施)。只剩下2%的公司表示GenAI不适合他们——对于一种大多数人14个月前不知道存在的技术来说,这是一个非常低的数字。
然而,在GenAI上取得成功并不像注册OpenAI帐户并让GPT撕裂那么容易。虽然今天的预训练大型语言模型(LLM)比过去的自然语言处理(NLP)技术更容易使用,但拥有良好的数据对于使这一切发挥作用仍然至关重要,无论是从头开始训练模型,微调预构建模型,还是在运行时提示LLM。坏数据将有效地削弱GenAI项目,就像它击沉任何类型的AI或ML项目一样。

来源:Informatica的CDO Insights 2024报告
为此,Informatica的调查发现,目前正在部署或计划部署GenAI的数据领导者(或参加调查的600人中约有588人)将数据质量列为GenAI成功的头号关注点。根据上周发布的报告,数据质量之后是数据隐私和保护、人工智能道德、用于训练和微调语言模型的数据数量,以及作为GenAI其他关注的人工智能治理。
在Informatica的调查库中,这些数据管理主食的使用率很高。事实上,这家加利福尼亚州红木城公司报告称,100%的调查参与者表示,他们正在投资数据管理能力,以支持他们的数据战略和优先事项——如果有的话,这是一个很好的迹象。

来源:Informatica的CDO Insights 2024报告
然而,Informatica的100%数字有一线希望,Informatica销售一套数据管理工具,涵盖数据集成和ETL、数据质量、数据目录、数据治理、主数据管理、数据可观察性以及API和应用程序。该公司发现,58%的调查人员使用五个或更多工具进行数据管理工作。此外,49%的调查者没有将这些数据管理工具作为云托管服务提供(当然,Informatica在智能数据管理云横幅下销售一套统一的数据管理工具。
更多的数据通常等于更多的洞察力和更好的信号。但据Informatica称,五分之二的公司表示,他们正在处理1000个或更多的数据源。近80%的受访者表示,他们预计到2024年数据源的数量将增加。
毫不奇怪,39%的数据领导者报告说,在2024年,提高GenaI用例数据的可靠性和一致性是优先事项。另有39%的人将数据驱动的文化和更高的数据素养作为2024年的目标,其次是改善数据和数据流程的治理,占38%。
数据管理已成为GenAI的关键使能因素,这并不让Informatica的首席产品官Jitesh Ghai感到惊讶。
Ghai在一份新闻稿中表示:“不出所料,生成性人工智能实施和成功所需的数据策略继续主导大多数数据领导者的带宽,无论区域或垂直方向如何。”“虽然这些领导者仍然必须克服无数的技术和组织障碍,但对整体、高度集成的数据管理能力的明确投资是释放GenAI巨大潜力的关键,并使企业能够完全控制其不断扩大的数据资产。”