人工智能 频道

AMD推出“Turin”服务器CPU

  如果大家正在考虑升级自己的x86服务器机群——目前确实有不少企业、超大规模基础设施运营商和云服务商都在持币参与讨论——那么好消息是,英特尔和AMD均已推出其有史以来最强大的串行计算引擎。  

  对于仍在x86服务器CPU市场上占据三分之二出货量的英特尔来说,其在制程工艺略有不足的情况下仍几乎与AMD打成平手,这样的事实简直令人惊叹。而在AMD这边,其刚刚发布的“Turin”Zen 5和Zen 5c拥有着显著的性能与价格优势,这意味着尽管英特尔一直在努力优化自家x86服务器CPU,但AMD对于市场份额的蚕食仍在继续。也就是说在不久的将来,随着双方制程工艺和性能的逐渐趋同,也许两家厂商之一半闪电出手、掀起新一轮价格战。

  但这样的未来显然还没有到来。目前,随着各大主要超大规模计算厂商都在开发内部原研的Arm架构服务器CPU方案,英特尔和AMD则仍在积极与彼此竞争,就好像Arm浪潮根本就没有发生。毕竟如果承认Arm替代方案的存在,就意味着x86芯片的价格也必须随之降低,相当于是把大量收入和相当一部分利润留给谈判对手,而两家x86厂商显然都接受不了这样的结果。所以总结来讲,x86服务器CPU成为新的传统技术层,而各大企业自制的Arm芯片正在重塑性价比曲线。总有一天,也许RISC-V又会以同样的方式再革一次Arm架构的命。

  与往常一样,本文将带大家从处理器的基本信息、速度和价格开始了解Turin系列CPU,之后再对架构进行深入探讨。最终的收尾部分,则是从AMD的角度分析当前竞争态势。

  AMD在其Epyc处理器的开发旅程中已经取得了长足进步,而且坦率地讲,对于这样一家曾在2010年代放弃过数据中心市场的厂商,要想走出设计失利的阴霾、重新建立市场信誉,AMD也别无选择。当时英特尔这边推出了一条极具复兴意义的64位至强产品线,其中借鉴了AMD Opterons的许多灵感,而且做得更好。时间快进到当下,这次轮到英特尔步履蹒跚,在制程工艺方面远远落后于AMD的代工合作伙伴台积电公司。这种迟迟无法转向更先进制程工艺的现实,无疑给英特尔的服务器CPU设计师们造成了巨大的痛苦。自2019年以来,英特尔一直无法凭借“设计优势”在市场竞争中领先,而只能依靠“供应优势”来勉强架招。时至今日,芯片巨头的产品在技术层面仍然达不到AMD一方的高度。

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  在Epyc这几代产品当中,芯片架构已经发展并改进到单块Epyc CPU由9个、13个甚至是18个小芯片组成,这些小芯片相互连接并气概在基板当中,因此在肉眼观察和软件调用角度看就像是过去的单片CPU。因此,Epyc芯片的市场占有率越来越高,在希望将尽可能多的核心塞进同一台设备、从而获得更高每瓦每单元性价比指标(2000年代初我们将这项指标称为SWaP,即空间、瓦数与性能的缩写)的超大规模基础设施运营商和云服务群体中尤其受到欢迎。

  随着Epyc芯片设计的改进,人们对AMD的成见也逐渐冰释消解。现如今Epyc产品线已经发展到完成成熟的新阶段,没有人会质疑AMD在服务器CPU领域牢固的市场地位,也没有人会质疑其能不能打造出针对单插槽和双插槽服务器的出色处理器。AMD的产品完全能够与任何一家厂商的出品相媲美,整个市场上再无其需要仰望的对手。

  但正如前文提到,我们认为在超大规模基础设施运营商和云服务商当中,x86处理器的价格总是高于自主研发的Arm服务器芯片,这是因为英特尔和AMD等厂商必须靠产品价格抵消掉所有管理费用。换句话说,任何不属于超大规模基础设施运营商和云服务商的客户,都必然需要为服务器计算支付高昂的费用。这是这块业务的天性使然,根本不可能消除。

  世界上大多数国家仍在Windows Server上运行难以被移植到Arm架构的x86应用程序,所以情况倒还不算紧急。可大多数新型应用程序已经开始面向Linux、而非过去的Windows Server所编写,这类软件能够相对轻松地被移植到Arm架构,所以处理器厂商必须保持警惕。事实上,这种保持焦虑和紧绷感的习惯似乎才是更健康的经营态度。

  鉴于x86服务器市场的现状,我们很好奇AMD的市场份额到底能上涨到怎样的水平。

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  这很大程度上取决于超大规模基础设施运营商和云服务商的行动速度,毕竟这部分客户吃掉了服务器CPU出货量的一半以上。如果他们能用Arm芯片满足半数CPU需求,而另外一半继续使用x86来支持传统x86应用程序(从长远来看,也就是Windows Server),则意味着CPU市场上仍有四分之三的份额属于x86,其业务体量同样相当巨大。但如果超大规模基础设施运营商和云服务商最终在服务器CPU出货总量中占据四分之三,且只在必要时增购x86处理器来支持Windows Server和客户希望在x86上运行的一部分Linux工作负载(这类用例也有其合理性),那么英特尔和AMD就必然面临巨大压力。其市场份额很可能会上下波动,具体取决于两家厂商所发起价格战的激烈程度。这样的预测还假设两家厂商的设计和制程工艺水平相同,但从目前英特尔这边的情况来看,此种推断很可能并不成立。

  Turin Zen 5和Zen 5c核心迎来了大量微架构变化。与Zen 4和Zen 4c核心相比,新一代核心的每时钟整数指令数(IPC)提高了17%,浮点IPC则提高了37%。

  注意:在以上表格中,当我们计算与运行频率为2.8 GHz的四核“Shanghai”Opetron 2387处理器作为基准的相对性能时,只对整数工作负载进行比较;但在某些情况下,我们也会进一步比较并添加浮点运算的相对性能。

  核心设计中的这种整数IPC改进幅度与以往的趋势基本保持一致——“Rome”Epyc 7002系列比“Naples”Epyc 8001系列高15%;“Mila”Epyc 7003系列比“Rome”系列高出19%;而“Genoa”Epyc 9004系列又比“Mila”系列高出14%。随着制程工艺的缩小,每个核心对应的L3缓存(「c」核心的L3缓存为2 MB,只有普通核心4 MB L3缓存的一半),这样的芯片功能和布局使得AMD能够持续扩展SKU堆栈。而这一次AMD公布的Turin技术栈覆盖范围更广,共囊括27种不同的芯片;相比之下,英特尔的Granite Rapids性能P核与“Sierra Forest”能效E核至强6系列目前仅有十余款SKU。

  这显然已经不是我们所熟悉的那个英特尔了,只能感叹一句时代变了。英特尔计划在2025年第一季度为Granite Rapids和Sierra Forest家族带来更多低端SKU,而AMD则可能会为Turin以及3D V-Cache Turin-X芯片系列引入部分通信和边缘计算变体,所以届时两方阵营的阵容可能会更趋平衡。

  Turin芯片代表着基于Genoa的进化成果,所以这两款芯片也必然要能够插入相同的SP5服务器插槽。要想推出任何颠覆性的升级,往往都需要匹配新的插槽,而服务器买家和服务器设计师则希望一种插槽至少要能够支持两代产品。

  在Turin芯片这边,AMD采用了台积电的3纳米制程工艺核心,I/O和内存芯片采用的则是4纳米制程工艺,相较于Genoa核心采用的5纳米制程工艺和Genoa I/O与内存芯片的6纳米制程工艺有了相当大的进步。

  下表所示,为使用标准Zen核心(而非「c」变体)的第五代产品的具体指标变动:

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  常规Turin产品中的核心复合芯片(CCD)有八个核心与32 MB的L2缓存,这些核心共享这32 MB缓存,在设计上延续Milan和Genoa芯片。随着核心制程工艺的缩小,即从Milan的7纳米到Genoa的5纳米,再到Turin的3纳米,AMD得以将16个核心加上I/O芯片塞进单一封装之内,因此能够将顶部核心数量从Milan的64个增加到Turin的128个。

  Turin的L3缓存容量按比例增加至512 MB,且该处理器与Genoa一样拥有十几条DDR5内存通道。但是,Turin内存运行频率为6.4 GHz,速度提高了50%,因此每个插槽的内存带宽也增加了50%。这也恰好匹配了新款处理器相较于Genoa核心数量增加了50%的比例。Genoa和Turin设计均采用128条或160条PCI-Express 5.0 I/O通道,这也是为了适应SP5插槽的固有特性。

  此次发布两款Turin CPU变体不仅拥有不同的核心数量,而且搭配不同的CCD与相应排列,旨在专注于数据中心场景下的不同工作负载。

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  基于Zen 5 CCD的所谓“纵向扩展型”Turin芯片(如上图左所示)拥有16个CCD,每个CCD对应8个Zen 5核心,总计128个核心和256个线程。“横向扩展型”Turin芯片(类似于上代与标准Genoa处理器相对应的「Bergamo」系列)只拥有十几个Zen 5c CCD,但由于去年了每核心2 MB的L2缓存并重新设计了CCD布局,因此每个Zen 5c CCD对应16个核心,远多于Zen 5 CCD的8个。Zen 5和Zen 5c核心的布局不同,但功能相同。这与英特尔在Granite Rapids和Sierra Forest中的设计实践形成了鲜明对比:前者只有一个普通的至强核心,即性能P核;后者则采用完全不同的Atom衍生核心,被称为能效E核。双方到底哪种设计更能赢得市场青睐,还需要时间来检验。

  与之前的Epyc CPU系列一样,AMD会先打造出适用于妇插槽服务器的标准Turin处理器,之后再据此设计面向单插槽服务器的特殊版本(即P版)。这些版本的NUMA电路经过压缩,因此能够在合理范围内下调价格。Turin系列处理器还拥有F版变体,旨在满足高性能工作负载的需求(F代表主频增强)。我们猜测未来可能还会出现X版变体——可能会选择英特尔发布新一波CPU公告的2025年第一季度——这些变体将拥有更大的L3缓存,用以增强高性能计算以及某些对缓存敏感的AI工作负载的性能表现。

  咱们闲言入叙,马上来看迄今为止Turin家族旗下的Zen 5 SKU阵容:

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  下图所示为Turin家族Zen 5c SKU阵容,这些变体拥有更高的核心数量、更大的吞吐量以及更具竞争力的性价比水平:

≈推出“Turin”服务器CPU,再催内力欲扭转局面

  这里需要特别指出的是,与2009年4月(正值大衰退期间)推出的45纳米制程“Shanghai”Opterons相比,AMD取得的进展令人瞩目。

  Opteron 2387是“Shanghai”系列中定位合理的中端产品,但只对应四款SKU。该芯片搭载4个“Shanghai”核心,运行频率为2.8 GHz,不支持超频且匹配6 MB的L3缓存,所有这些都集中在简洁的75瓦热功率设计范围之内。如果以服务器行业的标准1000托盘规模来采购,则每块芯片售价为873美元(请注意, 873美元为CPU价格,而非托盘价格)。

  为了计算相对性能,我们将芯片的时钟速率乘以核心数量,再乘以与“Shanghai”核心相比的累计IPC改进幅度。

  “Naples”Epyc 7601处理器拥有32个核心,运行速率为2.2 GHz,性能提高了10.37倍,按每单位4200美元的价格计算,则同等性能的售价为405美元。倒数第二的是“Rome”Epyc 7742处理器,其标准化程度比Epyc 7H12更高,主要面向高性能计算类工作负载。这款运行速率为2.25 GHz的64核芯片的相对性能跃升至24.40,而每单位性能成本则降低至285美元。接下来抢球怕是主频2.45 GHz的64核“Milan”Epyc 7763芯片,其相比性能评分为31.61,性能提升主要源自微架构改进与时钟速率增强,与核心扩展无关。“Milan”芯片的性价比略有下降,每单位性能价格为250美元。之后就是96核心的2.4 GHz Epyc 9654处理器,在我们的相对性能计量表中得分为52.94,芯片价格为11805美元,对应每单元性能223美元。

  这里需要强调一点,提高性能比优化性价比更容易。而且受到热限制的影响,通过增加核心数量来优化性价比也要比通过提升时钟速率来增强性能更简单。

  现在来到Turin,目前这款旗舰产品的普版Epyc 9755型号拥有128个核心,运行频率为2.7 GHz,相对性能为92.93,售价则为12984美元。这相当于每单元性能仅140美元,可以看到AMD在性价比方面取得了很大进步。

  更具体来讲,与“Shanghai”Opteron 2387相比,Turin Epyc 9755的性能提高至92.93倍,价格上涨至14.9倍,功耗则增加至6.7倍,相当于在短短15年多的时间里将性价比提高到了6.2倍。

  Turin的Zen 5c版本又进一步拉高了性能与性价比。Epyc 9965拥有192个核心,运行频率为2.25 GHz,相对性能为116.17,价格为14813美元,每单位性能价格折合128美元。与Epyc 9755相比,其峰值理论整数吞吐量性能高出25%,性价比则高出8.7%。

  当然,大家也别先急着认为Zen 5c版本就比Zen 5版本更好,究竟如何选择取决于工作负载对于缓存的敏感程度。大家还必须认真观察完整的SKU堆栈,思考如何将工作负载与合适的SKU相匹配。如果对高串行性能比较重视,那么就必须掏出更多越多白银,以上表格已经清楚表达了这一点。想要更高的吞吐量,也同样要用成本说话。但这显然是AMD在芯片产能分配方面必须做出的取舍,可以理解也非常公平。

  我们不会在这里直接拿AMD Turin 5和Turin 5c跟英特尔的Granite Rapids与Sierra Forest进行比较。因为在我们看来,英特尔产品线之内的相对比较就足以说明问题。

  首先,也可能是最重要的一点,核心数量更高的英特尔Sierra Forest型号虽然看似占优,但其性能却明显低于Granite Rapids系列芯片,只是价格更低且性价比更高。更确切地说,144核至强6780E的吞吐量比128核至强6980P要低24%,但同为同一型号的前者在性价比方面却高出16%。相比之下,我们在前文中已经提到,拥有192个核心的Turin 5c Epyc 9965其实要能比128个核心的Turin 5 Epyc 9755多完成25%的工作,且每单位工作成本还低出8.7%。

  这明显就是两家厂商之间最大的策略差异了。

  其次,我们再来看看英特尔在2009年至2024年之间同时期内的相对性能提升幅度。对于英特尔至强处理器家族,我们用来作为相对性能衡量试金石的服务器CPU,是其2009年3月推出的45纳米制程“Nehalem”至强E5540,同样是大衰退时期的产物。这是一款四核处理器,运行频率为2.53 GHz,拥有8 MB的L3缓存、运行功耗为80瓦,1000托盘采购规模下每块芯片价格为744美元。与这款经典的至强E5540相比,英特尔如今顶尖至强6 6980P的性能提高至62倍,功耗提高至6.25倍、达到了500瓦,价格则上涨至23.9倍、来到17800美元,性价比则提高至可怜的2.6倍。这里再回顾一下,AMD在普版Turin处理器上实现了性能提升至92.93倍、功耗提高至6.7倍、价格提高至14.9倍,最终性价比提高至6.25倍的佳绩。

  在后续报道中,我们还将带来关于Turin架构的深度剖析与竞争态势分析,敬请期待!

  原文链接:https://www.nextplatform.com/2024/10/10/amd-turns-the-screws-with-turin-server-cpus/

1
相关文章