如今,平台工程师负责解决的需求正在迅速演变,由最初DevOps自然演化的产物发展成一门职责不断扩展的独特学科。当下的平台工程师不仅需要管理日益复杂的云原生环境,还要为整个企业构建AI基础设施。
Gartner指出,到2026年,80%的大型软件工程组织都将建立起平台工程团队,充分可复用服务、组件及应用交付工具的内部提供方——这一比例显著高于2022年的45%。到2027年,平台工程更将显著影响基础设施与运营团队的技术选型,影响超过半数决策。
一路走来,从DevOps到平台工程的演变
DevOps作为一种文化与技术运动的产物,旨在打破开发与运营团队之间的隔阂。它奠定了至关重要的基础,即建立CI/CD管线、基础设施即代码与责任共担模型。但随着云原生架构的广泛落地,大规模分布式系统的管理复杂性迫使人们进行新的专业化分工。
平台工程正是为了应对这种复杂性而诞生。平台团队不可能指望每位开发者都成为K8s专家,也不要求每位运营工程师都了解现代应用程序框架间的细微差别,而是建立抽象层来简化基础设施使用。他们建立起内部开发者平台,通过API、接口与自动化机制将复杂基础设施转化为自助功能。
而随着AI应用快速成为主流,新一波需求也随之而来。AI工作负载与传统应用程序有着根本不同,对于现有平台工程实践提出了新的要求:
统一访问实时数据与历史数据:AI系统,特别是自主决策系统,需要无缝访问流式数据(用于实时上下文)及历史数据(用于训练及提取广泛模式);
跨数据域的一致治理:当AI系统访问多个来源的数据时,权限、模式或沿袭跟踪方面的不一致可能导致结果不可靠或治理失败;
高效数据移动:将流式基础设施与数据仓库彼此分离的传统架构,迫使系统间进行持续且昂贵的数据移动,由此产生延迟并令成本呈指数级增长;
横向扩展以实现经济效益的可预测性:AI工作负载往往以难以预测的方式急剧扩展,因此需要在成本线性增加的前提下对基础设施进行横向扩展。
种种因素的叠加,导致平台工程师们面临一个悖论:如何在保持运营稳定性、治理和成本效率的同时,快速实现AI创新。
平台工程师的新使命
现代平台工程师必须将基础设施的复杂性抽象出来,转化为精心设计的API与自助接口。对于AI工作负载而言,这意味着构建平台,使数据科学家和机器学习工程师能够以编程方式访问具有适当计算资源的训练环境、针对延迟或吞吐量进行优化的推理环境、跨流式及批量域的统一数据访问,同时提供标准化的可观察性与监控支持。
成功的平台团队应该创造出让AI开发者专注于模型和应用程序、而非基础设施配置的顺畅体验。为此,我们最需要关注的技能包括:
数据邻近性设计。数据邻近性原则(即立足数据所在位置处理数据,而非移动数据)对于AI基础设施至关重要。平台工程师应当实现统一的存储格式,例如Apache Iceberg或Delta Lake,以便在流式与批量工作负载间无缝协作。通过将云原生对象存储作为各种数据类型的核心基础,团队可以为各类工作流程建立一致的基础层。这种方法还应辅以区域感知处理能力,以最大限度减少昂贵的跨区域数据传输,并配合无主导架构消除昂贵的复制流量。总之,这些策略能够将基础设施成本降低一个数量级,同时提升AI工作负载性能。
统一数据治理。对流式数据及历史数据的访问,带来了独特的治理挑战。平台工程师必须建立统一的目录和治理机制,确保所有数据源的一致访问控制,同时提供集中式模式管理与演进体系。这些系统应在整个数据生命周期内保持端到端数据沿袭跟踪及标准化的合规性与监管控制。通过实施涵盖实时及批量数据域的目录,平台工程师可以显著降低AI系统的治理失败风险,同时简化开发者体验。
基础设施的自动扩展与优化。AI工作负载对于资源需求往往具有不可预测性,这要求平台团队建立复杂的自动化体系。高效平台应将基于实际资源利用率的弹性扩展及资源分配的自动优化结合起来,并将其扩展至基于使用量的定价与计费模型,以便在保持亚当性的同时建立问责制度。此外,基于数据局部性的工作负载智能布局则可确保更优性能,同时最大限度减少不必要的数据移动。这些功能间协同起效以控制成本,并确保AI应用程序在必要时能够精准获取所需资源、全程无需人为干预。
促进跨职能协作与技能发展。更重要的是,平台工程师有望弥合可能阻碍AI应用的传统组织孤岛,推动数据工程、机器学习工程和运营团队立足统一术语与协作实践开展合作。成功的平台团队会跨领域部署通用工具,并设计出能够适应不同专业水平(从新手数据科学家到经验丰富的机器学习工程师)的平台。通过建立全面的学习资源与说明文档,赋能不同背景的开发人员,最终打造出有利于AI创新蓬勃发展的内部环境。
面向AI时代的统一基础设施
最具前瞻性的平台工程师正逐渐摒弃专为流式传输、批量及AI工作负载使用的独立基础设施技术栈。他们开始构建统一基础设施,结合通用抽象、存储格式及治理模型高效处理不同工作负载。
这种统一方法带来了三大关键优势:
大幅降低成本:通过消除冗余的基础设施及昂贵的数据移动,组织可以将AI基础设施的总成本降低达80%。
加速创新:开发者可以通过一致接口访问所有数据,而无需等待复杂的ETL流程,进而快速迭代AI应用程序。
增强治理与合规:统一方法可在所有数据域内实现一致的安全性、隐私性与监管控制。
随着AI成为企业中的新核心,平台工程师们开始掌握AI可持续应用与集成的钥匙。通过重构新时代基础设施,即优先考量数据邻近性、统一治理与开发者体验,工程师们可以在保障卓越运营的同时高效推动AI创新。
原文链接:https://dzone.com/articles/platform-engineering-ai-infrastructure