人工智能 频道

AI算力突围:从“算力摸高”到“智能调度”,神州鲲泰的智算变革之道

  当AI模型参数从千亿迈向万亿,算力基础设施正经历一场深刻的变革。它不再是简单的“硬件堆砌”,而是成为了决定AI创新效率与成本的关键“动力引擎”。在这场变革中,如何解决GPU短缺、能效瓶颈和调度复杂性,成为所有玩家必须直面的挑战。

  神州鲲泰副总裁、研发中心总经理周川

  作为神州数码旗下自有品牌AI基础设施核心,神州鲲泰正试图给出自己的答案。近日,我们有幸采访了神州鲲泰副总裁、研发中心总经理周川,深入探讨了在AI Infra.变革浪潮下,算力基础设施的演进路径、国产芯片的机遇与挑战,以及如何通过技术创新实现算力的高效、绿色与普惠。

  从“单一GPU”到“多元异构”:国产算力的破局之路

  过去,千亿参数模型的训练几乎等同于“堆GPU”。但在全球GPU供应紧张和算力需求激增的背景下,这一模式正面临巨大挑战。

  周川坦言,从单芯片算力来看,国产芯片与国际领先水平确实存在差距。然而,这并不意味着国产算力无法支撑起大模型的训练。“我们通过架构创新,特别是采用Scale-up总线互联技术,将多个小算力芯片组合成一个超级算力产品(超节点)。”周川强调,这种“以多胜少”的路径,使得整个计算集群在性能上可以与国外方案媲美,甚至在规模上还能实现超越。

  这揭示了一个重要趋势:未来的算力竞争,不再是单芯片的“军备竞赛”,而是系统级架构的“组合创新”。神州鲲泰基于鲲鹏底座,正积极构建多元异构的计算体系。面对客户多样化的选择,如昇腾、寒武纪等,神州鲲泰的角色并非简单地提供硬件,而是通过技术手段,帮助客户解决异构算力带来的管理难题,将不同厂商的算力资源整合成高效、可用的“算力池”。

  算力即服务:打破调度瓶颈,走向“智算架构”新时代

  有了多元的算力硬件,如何将它们高效地调度起来,是另一个核心命题。尤其在混合云、多云环境下,面对训练任务的长周期和推理任务的低延迟要求,传统的调度系统已力不从心。

  对此,神州鲲泰提出了“新智算架构”的解决思路。周川介绍,基于神州数码的平台资源,他们已打造了“异构智算调度运营平台(HISO)”和“异构智算加速平台(HICA)” 两大关键平台。

  HISO 聚焦于“算力池化”,它像一位“资源管家”,将跨数据中心的异构GPU资源进行虚拟化、池化,实现统一调度,让用户像用电一样使用算力。

  HICA 则像一个“翻译官”,屏蔽了底层不同算力卡的生态差异,对集群内的计算任务进行加速和优化,确保无论是大模型训练还是实时推理,都能获得最优的性能保障。

  这种“双平台”的策略,实质上是在构建一个从宏观调度到微观加速的完整闭环。周川进一步解释,通过这样的架构,神州鲲泰能帮助客户构建出“高通量、高并行、高效率、低能耗”的智算中心,实现“快部署、低投入”地突破算力瓶颈。而这正是“算力即服务”理念的落地实践,将复杂的底层技术封装成简洁的、可被上层应用直接调用的服务。

  绿色算力的实践:从PUE到“单位能耗任务量”的价值跃迁

  AI数据中心的能耗问题,已成为社会关注的焦点。在“双碳”目标下,如何让算力走向“绿色”,不仅是社会责任,更是长期竞争力的体现。

  周川认为,能效优化是一个系统工程,需要从电源、散热等多个维度同时发力。神州鲲泰的实践也印证了这一点:通过提升电源转换效率、采用高压电源技术来减少传输损耗,更重要的是,积极拥抱液冷技术。

  在为中国移动打造的绿色智算方案中,神州鲲泰的KunTai Pod2000系列液冷整机柜产品表现亮眼。通过一体化冷板、智能流量调节等技术,成功将PUE(电源使用效率)降至1.15,实现节点能耗降低30%。周川现场算了一笔账:“相当于每个100P智算单元,每年可以节省约736万度电。”这不仅仅是技术指标,更是实实在在的经济效益。

  更为前瞻的是,周川提出,算力效能的评估标准应从传统的FLOPS(每秒浮点运算次数)转向“单位能耗下的AI任务完成量”。他指出:“算力背后是能源,卖算力本身就是卖能源。每个Token产生的价值,都直接与能耗成本挂钩。”这意味着未来的AI应用不仅比拼速度,更比拼“能效比”,推动整个产业从单纯追求算力规模,转向追求算力效率与价值产出的精细化运营。

  生态共建:软硬一体与场景落地的双向奔赴

  算力最终是为应用服务的。如何降低部署复杂度,让AI应用真正在硬件上发挥出应有性能?

  神州鲲泰的策略是“开放与合作”。周川明确表示,神州鲲泰更愿意与AI应用软件开发商(ISV)合作,共同推出针对特定场景的软硬一体机或解决方案。他解释道:“AI应用没有通用的操作系统层,必须与特定的AI算力产品做深度融合和调优。这种深度融合,正是智算一体机及解决方案的价值所在。”

  这体现了神州鲲泰清晰的自我定位:专注做好基础算力底座,同时通过开放生态,与ISV伙伴共同完成“最后一公里”的优化,让算力真正落到实际的应用场景中,让AI实现价值创造。为此,神州鲲泰在2025年正式建立了“KunTai OpenLab”,以“技术赋能+联合创新+生态扩展”的模式,为近300家伙伴提供从硬件底座到平台服务的全链路技术支持。这种构建生态、赋能伙伴的做法,无疑将加速AI在千行万业的深度落地。

  写在最后

  在与周川总的交流中,我深刻感受到,神州鲲泰所扮演的角色已不再是单纯的硬件供应商,而是正在转型为智算基础设施的“解决方案架构师”。面对国产算力的挑战,他们没有选择“硬碰硬”的单点突破,而是通过系统级架构创新(如超节点)、平台级软件调度(如HISO/HICA)以及精细化能效管理(如液冷方案),构建了一套具有竞争力的智算“组合拳”。

  同时,神州鲲泰对自身边界有着清醒的认知,在“软硬一体”的趋势中,选择与ISV伙伴深度合作,专注于硬件底层的优化,这不仅是一种务实的策略,更是构建开放、可持续生态的智慧之举。

  当然,国产算力的道路依然漫长,生态兼容性、软件栈的成熟度仍是需要持续攻克的难题。但神州鲲泰的实践表明,通过技术创新与生态共建,我们完全有能力在AI算力基础设施这场深刻的变革中,走出一条属于自己的、高效且可持续的发展之路。这不仅是神州鲲泰的机会,也是整个中国AI产业的机会。

0
相关文章