8月8日,2024开放计算中国峰会在北京举行。峰会由开放计算社区OCP发起,至今已成功举办五届,本届峰会首次由OCP与OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)两大开放计算组织联合主办,得到SPEC、龙蜥社区等开放组织支持,以“开放协同:协作、智慧、创新”为主题,汇集了众多开放社区领袖、技术大咖和行业专家,已成为全球开放计算的创新交流平台。
会上OCP、OCTC两大开放组织共同发布了开放计算十大创新成果,OCP颁布开放计算最 佳创新奖、开放计算最 佳实践奖、开放计算生态贡献奖三大奖项。阿里云磐久服务器荣获“开放计算最 佳创新奖”,那么阿里云磐久服务器有哪些过人之处呢?下面为大家进行详细解读。
首发迎“大考”,阿里云磐久服务器在自研的路上砥砺前行
时间回到三年前,2021年10月,杭州云栖大会,阿里云正式对外推出自研磐久服务器家族,将基础硬件创新与上层云产品软硬件一体化,为客户提供更多选择,助力客户业务创新。
同年双11、双12,全新自研磐久服务器M系列首次上线运行,应用于电商等多个重要核心场景,顺利支撑了电商业务的峰值流量,性能和稳定性均超预期。
从云栖大会首次发布,到顺利通过双11、双12两次电商流量洪峰考验,磐久服务器M系列不仅证明阿里云实现业界最快的ARM架构服务器自研和业务上线运行,更是阿里云服务器研发团队多年来砥砺创新、深耕自研的结果。
要知道,数据中心内的硬件并不是天然为云计算和AI时代设计的,在以飞天云计算操作系统为核心技术体系创新过程中,阿里云也向下带动了包括芯片、服务器和互连等一系列软硬件融合创新。
其中,磐久服务器背后有何独特的创新利器呢?
利器一:方升架构
在硬件架构创新方面,阿里云从2019年开始推出了服务器方升架构,补上全栈云基础设施的最后一环,实现了从芯片、部件到整机的技术及架构创新和自研。基于方升架构的阿里云自研磐久服务器,支持多种CPU平台,在通用计算芯片集成度越来越高的趋势下,创新地研发了在1U空间下,支持双节点架构设计,即1个CIPU支持2节点的Multihost架构,解决了性能,成本和爆炸半径的平衡的挑战,为未来更多核的应用铺平了道路,已经在多个云产品中大规模应用,成为阿里云通用计算服务的底座。
在架构灵活性方面,基于方升架构的阿里云自研磐久服务器,在硬件上采用模块化设计,支持的配置灵活搭配;且可以支持不同的CPU平台,只要更换一块主板即可,其他硬件部分全部复用,降低开发的投入,给客户直接的体验就是成本的降低。
目前基于方升架构的阿里云自研磐久服务器家族共有5个系列的产品,覆盖通用高性能计算、大容量存储和高性能存储,以及AI计算等多个领域。
利器二:CXL互连技术创新
在互连架构创新上,阿里云推出了业界首个基于CXL Switch内存池的业务系统解决方案,通过CXL Switch Box系统,提供大容量、高性能、灵活性强的池化内存系统,可搭载包括阿里自研的AliSCM、AliMemory部件等。
AliSCM是一款阿里自研的持久化内存(PMEM)部件。其前端采用最新CXL协议接口,天然支持高速传输、池化扩展、多种IO模式灵活定义。其后端使用国产内存级非易失性存储介质,与传统DRAM和Flash存储介质相比,在存储密度、读写性能、数据持久性、可靠性等方面拥有综合优势。
AliSCM凭借自研控制器、定制IP、自研固件及生态软件组件,向上提供超大容量、高带宽、低延迟的持久性内存能力,并可以针对业务需求进行软硬协同设计,在缓存数据库、高端云盘、集成电路CAD、AI智算等诸多领域带来新的架构创新空间,构筑阿里云存储基础设施的核心技术竞争力。
在业务场景上,应用包括内存容量、带宽扩展等基础应用,也包括系统级方案,如Tair数据库serverless高性能弹性扩缩容应用,PolarDB数据库高性能数据访问应用等,已经在阿里云多款数据库业务场景下预研,进度上领先于行业。
利器三:AI算力全栈解决方案
如今,异构服务器硬件架构正从多卡向众卡,盒式向柜式,风向水,铜向铜光结合演进。在这一过程中,阿里云发现AI系统的主要矛盾来自于内存与算力增长的不均衡,在超大规模参数模型推理及训练背景下,局部超高性能Scale Up互连成为系统更优解,支持GPU内存语义,通过小范围超大带宽,可缓解超大集群的性能压力。差异化的需求形成新的Scale Up协议生态,为此,阿里云打造了ALS(Accelerator Link System)开放生态。
据了解,ALS-D数据面支持各主流厂商Scale Up方案,同时支持即将发布的国际标准UALink协议,并提供了超高性能,单柜百TB/s级吞吐,支持内存语义,十TB级显存共享。ALS-M管理面可满足云平台统一管控需求,可接入多种AI芯片系统方案,实现弹性灵活实时申请释放。
阿里云从开始一直重视数据中心的异构算力发展和创新,到目前为止,已经发展出非常丰富的异构算力硬件解决方案。目前阿里云主流的AI服务器平台包括训练服务器平台和推理服务器平台,其中核心计算、存储、DPU等部件全部自研软硬件结合为客户提供更高性能、更稳定、更灵活、更高效的算力资源。
阿里云主流AI训练服务器平台,包括磐久服务器G系列计算节点和磐久服务器G系列GPU扩展节点。磐久服务器G系列基于阿里创新的方升架构,采用单机多卡,异构资源解耦的灵活方案,结合软硬件融合优化,实现高稳定性,高灵活性,和高性能,是阿里云大模型训练任务的硬核基石。
一句话点评
“ChatGPT”、“AGI”、“大模型”、“东数西算”、“绿色数据中心”,这些热词的背后,都有一个共同的刚需——AI算力提升。
阿里云磐久服务器从业务需求角度出发,创新性的提出和发展服务器硬件方升架构,结合CIPU计算架构创新,以及对CXL开放互连架构、UALink开放互连架构的拥抱,可以快速满足产品迭代要求,释放技术红利,为客户提供高性能、高可靠性和高性价比的云产品,为客户提供更优选择,将数据中心的算力水平带上更高的台阶。