云时代让开发者习惯于忽略基础设施,而人工智能正迫使他们重新聚焦于此
多年来,云计算带来的最大福音之一,就是像 AWS 这样的供应商能帮你处理管理基础设施这一“无差别的繁重工作”。需要算力?点一下按钮。需要存储?再点一下。需要数据库?让别人去操心底层细节。托管基础设施的初衷,就是让大多数企业不必整天沉浸在底层系统工程的细节中。
而人工智能正在打破这种“抽象”的便利。
正如我之前所说,企业在人工智能领域的真正挑战不再是训练模型,而是推理——在现实的延迟、安全性和成本约束下,将模型持续稳定地应用于受控的企业数据。这一转变至关重要,因为当推理成为企业的常态化工作负载时,那些曾经看似枯燥却必要的基础设施,突然变得具有战略意义。
网络尤为如此。
网络……还能变酷?
几十年来,网络之所以被重视,恰恰因为它稳定、安静。这正是我们想要的:没人希望网络“出彩”。标准机构行动缓慢,内核版本更新谨慎,因为可预测性是第一位的。在大多数企业应用对网络要求相对宽松的世界里,这种保守主义是合理的。
有趣的是,网络真正变得“性感”的时期,往往是技术剧烈变革的时代。比如 1999 年到 2001 年的互联网泡沫与基础设施繁荣;2007 年宽带和移动互联网的爆发;再到 2015 年至 2022 年云网络的整合。而现在,由于人工智能,我们即将迎来网络领域的又一次重大复兴。
尽管社交媒体上充斥着对训练运行、模型规模和数据中心巨额投资的讨论,但对于大多数企业来说,真正的机会其实在别处。偶尔训练模型并非难事,真正的挑战在于:每天在共享环境中,面对敏感数据、在严格的性能要求下进行推理。网络工程师或许更愿意默默无闻,但人工智能让他们无法隐身。在人工智能时代,网络性能成为首要瓶颈,因为应用不再只是等待 CPU 或存储,而是在等待跨分布式系统的上下文、令牌、嵌入、模型调用和状态的流转。
换句话说,人工智能不仅增加了流量,更从根本上改变了网络的本质。
对网络的全新认知
这并非我们第一次经历网络范式的转变。正如思科安全首席技术官、Isovalent 联合创始人、Cilium 创始人 Thomas Graf 在接受采访时所说:“Kubernetes 和微服务的兴起是第一波东西向流量的加速。我们不再构建单体应用,而是将应用拆解,这不仅在防火墙层面,更在基础设施内部,立即带来了对安全的需求。”
人工智能的引入改变了这一切。这些工作负载不再只是几个相互通信的服务。它们涉及同步 GPU 集群、检索管道、向量查找、推理网关,以及越来越多的、跨系统持续交换状态的代理。这与大多数企业网络所熟悉的运营世界截然不同。“在人工智能工作负载中,”Graf 继续说道,“数据移动量是原来的百倍。不是因为系统更碎片化,而是因为人工智能的运行规模更大,需要处理的数据量极其庞大。”
正是这种“极其庞大的数据量”,让网络重新变得重要,也让开发者必须重新思考。
在人工智能环境中,网络结构越来越成为计算系统本身的一部分。GPU 实时交换梯度、激活和模型状态。数据包丢失不再只是一个小麻烦,它会阻碍整体运行,让昂贵的硬件闲置等待。传统的南北向流量监控已不够用,因为大量关键流量从未经过传统的边界(比如用户访问服务器的请求)。因此,安全策略不能只部署在网络边缘,因为有价值的数据流往往在集群内部东西向流动。同时,由于企业仍在摸索自身对人工智能的需求曲线,弹性也至关重要。网络必须能够逐步扩展,适应混合工作负载,支持不断演进的架构,而无需在人工智能路线图每次调整时都推倒重来。
简而言之,人工智能正在让网络不再只是“管道”,而是成为应用运行时的一部分。
Cilium 为何重要
这就是 eBPF 的价值所在。官方 eBPF 项目文档将其描述为一种在内核中安全运行沙盒程序、在不修改内核源码或加载模块的情况下扩展内核能力的方法。技术细节固然重要,但更核心的观点是:eBPF 让可观测性和策略执行更贴近数据包和系统调用的实际发生地。在一个东西向流量、临时服务和机器级推理成为常态的世界里,这一点至关重要。
Cilium 正是这一转变的关键体现。它以 eBPF 为基础,提供了 Kubernetes 原生网络、可观测性和策略执行能力,其速度足以跟上网络链路本身的传输,而不会成为瓶颈。这对网络性能至关重要。难怪 Cilium 已成为超大规模云厂商网络栈的主流选择(谷歌 GKE 数据平面 V2、微软 Azure CNI 由 Cilium 提供支持,AWS EKS 混合节点也依赖或支持 Cilium)。事实上,根据《2025 年 Kubernetes 网络现状报告》,在 Kubernetes 用户群体中,大多数人都在使用基于 Cilium 的网络。
然而,Cilium 的重要性背后,更大的趋势是:人工智能正迫使企业重新关注那些他们曾乐于抽象化的基础设施细节。这并不意味着每家公司都要自己动手搭建网络栈,但它确实意味着平台团队不能再将网络视为一个不可触碰的实用层。如果推理是企业人工智能落地的关键,那么延迟、遥测、隔离和内部流量策略就不再是次要问题。它们是决定产品质量、运营可靠性和开发者体验的核心要素。
不止是网络
这种变化也不仅局限于 Cilium 或网络本身。人工智能正不断迫使我们关注那些我们曾希望遗忘的细节。正如我之前所说,炫酷的人工智能演示固然有趣,但真正的工作在于让这些系统在生产环境中变得可靠、安全、经济。同样重要的是,在我们急于让企业级人工智能稳定运行的过程中,我们不能忽视如何让整个技术栈更易于开发者使用、更便于 IT 和运维管理,并在真实负载下表现更出色。
“如果一个人工智能服务响应更快、行为更智能,它就会在市场上胜出,”Graf 指出,“而其基础就是高性能、低延迟、无瓶颈的网络。这让我想到高频交易——一旦计算机取代人类,网络延迟和吞吐量突然就成为了竞争优势。”
这个类比很贴切。企业人工智能的赢家,不一定是拥有最大模型的公司。成功属于那些能在真实负载下,对真实数据进行可靠、可控、经济高效推理的企业。部分优势来自模型本身,但更多企业意识不到的是,这些优势将在那些看似“枯燥”的层面——比如网络中——被决定。