部分由于对ChatGPT等突破性生成人工智能(AI)工具的兴奋,行业分析师预测人工智能和机器学习(ML)技术的业务投资将快速增长。IDC预测,今年的支出将达到1540亿美元,比去年在人工智能/ML相关硬件、软件和服务方面的投资高近27%。
请记住,构建生成人工智能工具的组织由财量雄厚的投资者支持,可以访问大量数据集,并使用非常成熟的数据管理实践是有原因的。对于大多数企业来说,从头开始培训大型语言模型的成本将令人望而却步。正如微软的这段“GPT状态”视频中所解释的那样,这是一个令人难以置信的复杂过程,需要投资数百万美元。
因此,大多数正在评估AI/ML就绪性数据的企业将寻找微调已经存在的基本模型的方法。例如,在生成人工智能和语言模型的背景下,想要微调模型的公司需要投入时间和资源来评估特定格式的训练数据,并不断迭代,以便将他们的数据与他们喜欢的叙述保持一致。这将需要将清洁源数据输入语言模型。
在准备AI/ML计划时,公司应该考虑三个关于数据的关键因素,那些领导该项目的人还应该确保每个参与者都清楚目标,并了解跳跃所需的流程和标准。仔细看看。
节省时间和简化数据评估的三个因素
数据项目通常很复杂,由于行业用例差异很大,每个组织都有内部特质和数据成熟度级别需要考虑,因此评估数据的任务可能很复杂。但以下是不应忽视的三个因素:
数据可访问性:公司遇到的一个常见挑战是数据无法访问,因为它分散在多个不同的系统中,或以各种不兼容的格式存储。当公司通过并购增长时,这种情况经常发生,因此信息可能存储在多个云中,并通过不同的架构进行管理。因此,聚合和标准化为单一格式成为一项艰巨的任务,阻碍了有效利用数据进行ML扩展的能力。
数据质量:特定领域生成人工智能的兴起凸显了拥有高质量、精选数据的重要性。“垃圾进,垃圾出”公理适用于AI/ML项目,当企业从非为分析而设计的系统中提取数据时,可能会出现麻烦。为了塑造用于分析的数据,项目负责人可能必须将其与其他来源的数据混合,然后必须随着时间的推移进行监控,以确保其保持有效,以避免“数据漂移”或“模型漂移”,其中AI/ML工具训练的数据不再为模型的目的反映现实。策划和维护高质量的数据对于确保准确可靠的AI/ML结果至关重要。
数据量:与第2点相关,企业经常用来自各种外部来源的数据来增加内部数据,包括供应商提供的数据和免版税的公共信息。在从第三方来源构建数据量时,质量和频率问题可能是一个挑战,这些数据可能会提供有时间间隔或不同格式的数据。来自外部来源的数据也必须转换为标准格式,并持续观察,以确保其保持新鲜、可用并与AI/ML倡议相关。
数据集成工具有助于将信息拉入单个数据仓库,以便项目团队可以开始塑造它。由于司法管辖区有不同的规则,考虑数据存储地点以及适用哪些标准的监管影响也至关重要。
致力于成功的AI/ML数据项目
Gartner预测,到2025年,80%试图扩展其数字运营的企业将因缺乏现代数据治理标准而失败。为了避免AI/ML项目的数据失火,定义目标并在整个组织内获得支持,为该计划设定明确的目标,并从组织的中层管理层就价值达成共识至关重要。每个人都必须了解公司将获得什么,以及该项目将如何不仅使最高管理层受益,而且使整个组织的所有利益相关者受益。
评估专门针对AI/ML项目适用性的数据质量也至关重要。根本问题是,数据是否不仅具有任何分析项目所必需的核心质量属性,而且是否足够完整、准确、及时等,可用于培训模型。从数据发现的角度来看,项目负责人可能会在内部和外部找到列出数据类型的数据目录,但信息也必须采用适合下游用户的格式。
项目负责人应该考虑的另一个因素是这种规模项目的资源可用性。熟练的数据工程师需求量很大,因此对许多企业来说,与合作伙伴合作可能更有意义,而不是在低级数据交付和转换任务上浪费宝贵的周期,这些任务可能会分散人们对高价值分析的注意力。对数据工程工具的投资,可以自动执行最手动和最平凡的任务,或与数据准备专家合作,可以帮助企业通过其AI/ML项目更快地获得价值。
数据项目通常是一项团队运动,因为企业越是专注于洞察力,而不是交付可用数据所涉及的管道,它们就越有可能快速实现价值。对于生成性人工智能项目来说,可能尤其如此。这项技术令人兴奋,但利用模型来获得价值也需要深入的人类监督。
关于作者:Will Freiberg是一位技术高管和创业领导者,在销售、产品、业务发展、客户成功和战略举措方面拥有丰富的跨职能专业知识。他目前担任Crux的首席执行官,Crux是一个基于云的数据集成、转型和运营平台,可加速外部和内部数据之间的价值实现。在Crux之前,Will是D2iQ(前身为Mesosphere)的联合首席执行官。在D2iQ的六年任期内,他担任过各种领导职位,并领导公司实现了高速增长,因为它帮助定义了云原生容器行业。