人工智能 频道

为企业数据层解锁人工智能价值

  对于企业而言,专有数据是核心竞争优势的关键来源。要让人工智能驱动的应用和智能体充分发挥潜力,企业需遵循以下四个关键步骤,为数据层做好充分准备。

  今年初夏,OpenAI产品主管Miqdad Jaffer曾犀利地指出“仅靠添加AI”的误区,在那些被炒作裹挟的团队与能够将AI转化为持久优势的团队之间划清了界限。Jaffer写道:“AI领域中最持久、最具防御性的护城河,正是专有数据。如果您的产品每次使用都能生成独特的结构化数据,您将以竞争对手无法复制或购买的方式持续领先。”

  然而,这种愿景在不同规模的企业中——无论是超大型云厂商、早期初创公司还是成熟企业——实现程度并不均衡。OpenAI可以投入数十亿美元和大量数据基础设施工程师。初创公司资源有限,但优势在于可以在一张白纸上,毫无历史遗留负担地为AI系统构建全新的数据管道。

  成熟企业在这方面潜力最大,但也面临最严峻的挑战。它们可能已经坐拥令人艳羡的专有数据,但同时也背负着数十年积累的遗留架构和技术债务。

  每一次重大的计算浪潮都重塑了数据层。面向服务的架构标准化了系统接口;商业智能与数据仓库构建了分析的结构;大数据平台解决了规模问题,实时流处理则让数据流动起来。每一次转变都改变了开发人员建模和连接信息的方式。

  如今,人工智能正再次驱动企业重写数据层,而这次的核心是围绕意义、信任和互操作性。那么,企业应关注哪些重点领域?

  连接现有数据资产

  对大多数企业而言,问题不在于数据稀缺,而在于连接缺失。系统的增长速度远快于集成速度,每个系统都有其独有的模式、逻辑和历史数据。关系模型固化了早期的设计决策,导致创建新应用往往比改造旧应用更为容易。传统数据格式存储了结构,却未能捕捉其含义。当前数据基础设施层的遗留债务,表现为大量既存的数据孤岛,它们虽保存了信息,却隐藏了上下文。

  Neo4j首席技术官Philip Rathle指出:“大多数公司都处于这种状态:每构建一个新应用,就随之产生一个自己的数据库,通常是关系型的。关系数据库的数据模型一旦确立便难以演进。久而久之,构建新应用比更改现有模型更容易,这进一步加剧了数据蔓延。”

  当企业转向图技术时,他们的数据才开始真正反映世界的实际运行方式。Rathle补充道:“一旦企业开始使用图,他们就会发现整个知识世界都可以用图来表征。世界本质上是网络、层次结构和旅程的集合,为何要强行将其塞入表格中呢?”

  这种对意义进行建模的能力,使得图技术从利基领域转向了不可或缺。Rathle表示:“那些从推荐引擎或欺诈检测等图应用起步的组织正逐渐认识到,更大的机遇在于连接知识本身。AI的兴起让更广泛的群体意识到,图是AI以及更精准、更透明推理的基础。”

  Semantic Arts首席执行官Dave McComb解释了这一转变的重要性:“本体论或语义数据库关乎事物的真实含义,以及如何以机器可解释的方式区分听起来相似实则不同的事物。模糊性是生成式AI的‘氪石’。” 如果没有知识图谱所提供的清晰性,AI只会更快地产生“幻觉”,而非变得更智能。

  通过在现有系统之上构建基于图的连接层,企业可以实现渐进式现代化。Rathle建议:“如果企业在不同业务部分已有数据结构,可以在不重写一切的情况下将它们连接起来。随着时间的推移,这个连接层便成为知识图谱的基础,使AI能够理解企业。”

  重掌专有数据的控制权

  即便有了更优的数据建模,企业仍面临更深层的所有权问题。多租户软件带来的便利性模糊了控制的边界。在AI时代,风险已不止于数据泄露——专有数据中的竞争价值有可能在模型学习过程中被同化,从而导致优势丧失。

  Replicated首席执行官Grant Miller阐释道:“在AI时代之前,数据由他人存储,若其被攻破,则成为一个‘蜜罐’。但现在,数据不仅被存储,更在被持续学习。因此,它可能成为(供应商)训练集的一部分。”一旦发生这种情况,企业可能再也无法收回其竞争优势。

  Miller认为,解决方案是将AI引向数据所在之处,而非将数据发送出去。他表示:“通过撤销供应商的访问权限,不是将数据发送给成千上万的不同供应商,而是将应用程序部署到数据已经存在的地方。这样你就能获得巨大优势。”

  从他的视角看,企业正朝着一个与数据敏感性相匹配的四层部署模式发展。Miller说:“针对低风险场景的完全托管SaaS,追求更多控制的基于VPC的部署,面向敏感系统的自托管环境,以及要求最高主权级别的气隙隔离部署……这正是我们观察到的企业普遍遵循的模式。关键在于使架构与数据敏感性对齐,而非仅仅追求便利性。”

  Miller认为,我们正见证一个文化转折点:曾经珍视云抽象价值的企业,正在数据本身成为核心知识产权时,重新评估“控制”的真正含义。Miller总结道:“如果你将数据交给供应商,你便无从知晓其具体用途。那将不再是‘你的模型’,也不再是‘你的人工智能’。”

  通过协同运营建立信任

  即使数据保留在企业控制之下,如果运营流程是割裂的,信任依然难以建立。只有当管理数据、运行系统和解读结果的相关方能够共享统一的视图时,AI才能有效工作。共享的可见性催生了可解释性、问责制和真正的治理。

  HPE混合云首席技术官Brian Gruttadauria表示,他的团队观察到,在长期分离后,不同专业领域正在重新融合。Gruttadauria说:“理解数据如何被消费的数据库运营团队、管理数据管道的数据工程师,以及提出抽象AI问题的业务领域专家之间,必须形成一个联盟。他们需要协同工作才能产出成果。”

  在整个行业层面,这种转变正在重塑自动化。过去涉及简单AIOps脚本的操作,正逐步演变为通过模型上下文协议和Agent2Agent等协议进行通信的智能体之间的协调行动。Gruttadauria解释道:“过去,你需要创建十张工单,并调动十个团队。现在,网络智能体、存储智能体和编排智能体可以直接通信并做出这些决策。”

  对Gruttadauria而言,这正是值得信赖的AI所需的运营模式:共享可见性、共享推理和共享责任。

  稳定API并演进技术堆栈

  最后的障碍在于技术堆栈本身。AI生态系统仍然是模型、框架和协议的拼凑体,没有哪家企业能够进行全面重构。

  IBM人工智能与开放创新总监Anthony Annunziata指出,目标并非打造一个通用堆栈,而是确保交互点的稳定性。他说:“我不认为单一堆栈解决方案是我们所需或所能实现的。但我们可以标准化用于构建应用程序的API,以及允许它们相互通信的协议。”

  其中,通信层的演进最为迅速。MCP和A2A等协议为工具和智能体提供了一致的方式来交换上下文并协调行动。它们正逐渐成为组织的“连接组织”,使得异构系统能够连贯地协同运行。

  在数据层,标准也在不断成熟。Neo4j的图查询语言Cypher已成为ISO最新的GQL标准,这是自近四十年前SQL问世以来的首个新数据库语言标准。Rathle强调:“通过GQL来访问图数据。这正是企业可以依赖的互操作性层。”

  Rathle和Annunziata都指出,图、关系和向量系统能够以与不同模型、编排框架及系统集成的方式共享上下文。目标不是统一所有,而是建立可靠、开放的联系。

  Dave McComb发出了警示,当下的选择将定义未来十年:“如果你围绕开放标准构建,你就拥有了自由。如果你围绕专有API构建,那么你其实已经选择了下一次(被迫)迁移的道路。”

  将数据转化为意义与知识

  每一次重大的数据演进都在与同样的问题斗争:过多的系统、过多的孤岛、过多的真相版本。但AI的到来提高了赌注。当下的挑战不仅是整合数据,更是整合意义。当缺乏上下文时,AI不仅仅性能退化,它更会产生“幻觉”。当专有数据在不受控的情况下被学习时,蕴含其中的竞争优势便可能随之消散。

  Philip Rathle总结道:“AI企业的真正圣杯,并非功能局限于某个特定数据孤岛内的知识,而是能够覆盖并理解整个企业范围的知识。”实现这一目标,需要的是跨系统的共享理解,而不仅仅是共享访问权限。

  Dave McComb的告诫则更为直白:“明天的遗留系统,正是在今天被编写出来的。”

  如今,碎片化的代价不再是简单的效率低下,而是错位的模型、丧失的竞争优势以及不可信任的AI系统。未来将属于那些深刻理解数据连接价值,并致力于构建能够让人工智能获取意义与知识的数据基础的企业。


0
相关文章