过去十年,算力行业遵循着一条简单却有效的增长逻辑:更大的数据中心、更多的服务器、更强的芯片,AI算力需求正以前所未有的速度膨胀,规模驱动时代创造了难以复制的奇迹,AI训练集群从千卡级迈向万卡级。但边际效益递减的规律开始显现,资源限制、调度僵化、成本失控,瓶颈不再仅仅在于“算力不够”,而在于“算力不好用”。不是不需要更多算力,而是行业增长的核心引擎正在发生根本性的切换:从“规模驱动”转向“场景驱动”。
北京超算CTO 甄亚楠
在这场变革中,技术架构如何破局?场景化服务如何落地?行业标准如何走向统一?IT168记者近日专访北京超算CTO甄亚楠,深入解读算力的演进逻辑与实践路径。
破局之道:让算力具备“场景嗅觉”
在传统的“资源视角”下,算力往往被简单等同于GPU数量与带宽等硬件指标,基础设施更侧重于资源的静态供给。甄亚楠认为,真正的破局在于推动整个技术架构完成一次根本性的视角跃迁:即从“资源视角”转向以业务结果为锚点的“任务视角”,让算力基础设施真正具备理解业务的“场景嗅觉”。
“在‘任务视角’下,算力是一种以业务结果为导向的服务能力,”甄亚楠解释道,“基础设施需要理解每个任务的特性:是计算密集型还是延迟敏感型?需要多大吞吐量?”
具备这种“场景嗅觉”的系统,其理想状态是成为一个智能的“资源管家”,能够在任务发起之初便精准识别其特性,并自动匹配更好的执行环境。甄亚楠指出,实现这一目标的关键路径,在于将业务侧模糊、抽象的场景需求,系统地“翻译”为可量化、可执行的一系列技术参数与调度策略。
他进一步强调,这场变革的实质并非要颠覆硬件本身,而是通过为硬件层注入深刻的场景理解与动态适配能力,让既有的算力资源能够更灵活、更高效地响应多样化的业务需求。北京超算正在践行的,正是通过丰富的工程实践经验,构建这样一套将场景意图转化为最优技术部署的闭环体系。
落地之策:从“卖资源”到“交钥匙”
场景驱动必须跨越技术与商业的“最后一公里”。甄亚楠强调,落地路径在于构建“场景——算力”的交付闭环,其本质是商业模式从资源租赁转向价值交付。
“这意味着算力服务商不再拿着硬件清单问客户‘你要买多少’,而是拿着行业解决方案问‘你要解决什么问题’。”甄亚楠将这一转变概括为从“卖资源”到“交钥匙”的跨越——即从提供裸金属,进化为提供包含软件、网络、运维在内的全栈环境。
北京超算的实践是构建覆盖“算-网-存”硬件栈及系统、驱动、模型三层软件栈的交付体系,并向上延伸打造“训练、推理、模型服务、运维观测、应用运行特征分析”的场景化封装体系。“其核心在于通过深度抽象与标准化封装,将底层复杂性对上层应用透明化,交付一个经过深度协同优化的整体能力。”甄亚楠说。这种“软硬协同”的思路贯穿设计全环节,旨在打通性能瓶颈,释放系统整体效能。
标准之问:从“企业孤岛”到“行业语言”
实现场景驱动面临着一个深层挑战:如何平衡场景的多样性与生态的统一性,即构建通行的“行业语言”以打破“企业孤岛”。
甄亚楠分析指出,当前算力生态呈现多元并存的格局。一方面,CUDA生态凭借长期积累成为AI开发领域广泛应用的事实标准。另一方面,技术自主发展的需求也推动了多样化的算力架构演进。这种格局在为行业提供更多选择的同时,也带来了生态兼容与标准统一的现实张力。
“标准化的难点在于,既要鼓励面向不同场景的技术创新和差异化优势,又要避免因技术路径分裂而形成极高的生态壁垒,”甄亚楠表示,“这需要行业在关键接口、基础工具链和开发范式上寻求共识。”其核心在于降低开发者的适配门槛,让创新力量更聚焦于业务场景本身,而非消耗在底层的移植与适配工作中。算力供应商需要在此过程中做好充分的技术储备与服务支撑,加速多样化的算力从“可用”到“好用”的进程。
技术重构:智能调度与数据驱动的效能革命
支撑上述变革的,是一套全栈技术体系的重构。面对千亿乃至万亿参数模型的训练需求,北京超算的核心思路是超越硬件堆砌,从系统工程的顶层进行设计,其目标是让算力基础设施具备与业务场景深度耦合的“感知-响应”能力。
其中,调度系统是这一体系的核心。北京超算实施了“以性能与效率为核心”的智能调度系统,甄亚楠将其形容为集群的“中枢神经系统”。该系统通过构建多维度关联分析模型,精准刻画任务健康状态——不仅监控GPU利用率,更将网络、内存带宽、存储吞吐、排队等待时间等数十个指标进行交叉验证与深度关联分析,从而识别资源错配、低效运行及空闲资源,为动态优化提供依据。
这一调度理念,进一步通过 “应用运行特征分析” 方法落地为一项可复用的平台能力。据甄亚楠介绍,北京超算已将这一方法固化为一个高度自动化、闭环的智能算力决策与优化平台。该平台的运作机制是一个完整的“感知-决策-执行-优化”闭环:
首先进行全局感知与精准画像。平台可对集群进行“算力CT扫描”,基于历史运行数据智能识别资源占用最高的关键应用作为典型负载,并从计算、访存、通信、I/O等维度进行深度剖析,生成量化的应用画像,精准分类为计算密集型、通信密集型等类别,为优化确立清晰“靶点”。
随后实现科学选型与敏捷交付。基于负载特征,平台的智能匹配引擎可在1小时内输出多套差异化的资源匹配方案,形成一个涵盖“可用、高性能、高性价比”等多个维度的决策矩阵,使用户能结合业务目标与预算做出精准选择。方案确认后,可在4小时内完成资源交付,实现从决策到供给的极速闭环。
算力交付并非终点,而是持续优化的起点。 平台通过可视化监控实时识别低效、空闲与异常资源,并动态实施算力错峰、弹性伸缩、闲时回收等策略,持续提升资源利用率。
通过上述闭环,北京超算将复杂的算力管理过程,转化为一个自动化、数据驱动的持续优化系统,推动算力从静态“资源”向高效“能力”的系统性转变。
未来愿景:算力即服务与可持续生态
展望未来,甄亚楠认为“算力即服务”将成为主流范式。北京超算已着手构建跨云、跨数据中心的统一算力池,旨在将分布各异、架构不同的异构算力资源,整合为逻辑统一、弹性供给的服务。
“用户未来面对的不再是复杂的底层设施,而是一个标准化的服务入口,可以按需、按量获取算力,如同使用水电一样便捷。”甄亚楠描述道。然而,实现这一愿景面临技术、生态与运营层面的三重挑战:需在技术上统一多元平台的接口与协议;在生态上协同构建开放、互信的软件与应用生态;在运营上建立公平、精准的跨平台计量计费与服务体系。“这是一场涉及技术重构、生态协同和模式创新的系统性革命。”甄亚楠总结。
与此同时,对算力效能的评估标准也在演进。“实际业务更关心的是能把多少理论算力转化为模型Tokens或推理FPS,即完成‘有用AI工作’的有效算力占比。”甄亚楠指出。真正的“算力效能”需在“同一程序、同一数据、同一参数”的条件下,综合评估功耗、成本、时间等多重变量。
从规模驱动到场景驱动,标志着AI算力行业正步入一个以价值创造为核心、更加成熟与可持续的新阶段。在这场深刻的范式革命中,那些能深入理解业务、优化全链路效能、并构建开放服务生态的企业,将成为推动AI大规模落地的关键赋能者。