在生成式AI浪潮下,算力芯片是“硬通货”,虽然亚马逊云科技的“王牌”是云计算服务,但也想把算力核心握在自己手里,这也是云计算企业为什么一定要走“自研芯片”之路的根本原因。如今,在亚马逊云科技的带动下,全球各家云厂商开始纷纷效仿,探寻自研芯片方向。
然而,芯片并不是一项孤立的技术,它与人类环境共同构成了一个彼此依存的世界。正如《芯片简史》作者汪波博士所言,芯片的发展史是一部创新史,应该顺应应用趋势,从应用需求中寻找新的突破点,进而优化甚至发明新的芯片。
作为自研芯片的“引路人”,亚马逊云科技从2013年躬身入局并推出Nitro芯片,到2018年以云大厂的身份推出第一代自研的ARM芯片Amazon Graviton,再到今天实际工作负载的大规模商用,其内核驱动力就是从用户需求出发,不断追求极致的“工匠精神”。
从用户需求出发,不断进击的Amazon Graviton
芯片自诞生到现在,不过是60年时间,但面对“极限”挑战,其实在业务应用端一直存在。亚马逊云科技在计算层面有一个核心服务叫Amazon EC2,全称是Amazon Elastic Compute Cloud,这是云计算的基础平台,上面承载着很多关键应用。随着服务平台的不断迭代,从软件层面进行性能和灵活性的优化,已走向天花板;于是,工程团队开始把优化的方向转向硬件。更准确地说,芯片成为提升云计算体验的重要瓶颈,市场上很多通用芯片并不能满足亚马逊云科技的定制化需求。
从2013年开始,亚马逊云科技决定走自研芯片之路,他们在2016年推出的第一颗芯片是用来支持2x25G以太网的数据包处理。值得一提的是,为了更符合云计算业务和新时代需求,他们并没有采用传统的X86芯片架构,而是选择基于Arm的Neoverse内核打造。2018年,亚马逊云科技发布了第一代#FormatImgID_2#Amazon Graviton处理器,2020年推出了Amazon Graviton2,2021年推出了Amazon Graviton3,2022年推出了Amazon Graviton3E,2023年推出了Amazon Graviton4,保持了每年都有更新的节奏,并且每一代的Graviton都会比上一代有两位数的百分比性能提升。
可以说,过去的五年是云计算走深向实的五年,也是亚马逊云科技自研芯片高速发展的五年。在这期间,亚马逊云科技一共发布了四代Amazon Graviton实例,不仅实现了性能提升,单位算力的功耗也在持续下降。与第一代Graviton相比,Graviton2处理器性能提升7倍、计算核心数量多达4倍、缓存达到2倍、内存速度达到5倍;Graviton3的单核性能比Graviton2又提升25%,浮点性能提升2倍,与同类型其他EC2实例相比,可节省60%的能源消耗,同时还首次在云计算芯片中采用性能更强、功耗更低的DDR5内存;Graviton3E,专门对浮点和向量指令运算进行了优化,基于其推出的Hpc7g 实例,与Graviton3实例相比矢量指令性能提高了35%;Graviton4性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上。
随着芯片创新能力的不断增强,亚马逊云科技自研芯片商业化的版图也在不断扩大。走到今天,基于Amazon Graviton的Amazon EC2实例种类达150多个,在全球已经部署的的Amazon Graviton处理器数量超过200万个,并拥有超过50,000客户,其中也涵盖了Amazon EC2前100家客户的90%以上,他们使用基于Amazon Graviton的实例为其应用提供优秀性价比。
更快、更省,支持更广泛的应用场景
在芯片创新过程中,亚马逊云科技不仅致力于性能、性价比以及能效上的提升,还会针对实际工作负载进行优化。
为了方便客户更轻松获得Amazon Graviton实例带来的高性价比,亚马逊云科技还推出了越来越多基于Graviton的托管服务,包括客户常用的如Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等托管服务。客户仅需几分钟将托管服务转移到Graviton实例上即可实现高达40%的性价比提升。
另外,为了更好地适用于机器学习场景,亚马逊云科技推出了用于训练的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。
关于训练专属芯片创新,亚马逊云科技已经取得显著成果。2022年,亚马逊云科技推出基于Amazon Trainium的Amazon EC2 Trn1实例;2023年推出了Amazon Trainium2 芯片专为以高性能训练具有数万亿个参数或变量的基础模型和大语言模型而构建。与第一代 Amazon Trainium 芯片相比,Trainium2性能提升多达 4 倍,内存提升 3 倍,能源效率(每瓦性能)提升多达 2 倍。从实际应用体验来看,Amazon Trainium2 实例的优势在于,致力于为客户在新一代 EC2 UltraClusters中扩展多达100,000 个Trainium2加速芯片,并与Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供的算力高达65 exaflops,客户可按需获得超级计算级别的性能。
而在推理专属芯片上,亚马逊云科技也已实现了跨越式发展。亚马逊云科技在2018年发布了针对推理的Amazon Inferentia芯片,在2022 re:Invent全球大会上发布了新一代推理芯片Amazon Inferentia 2。与Inf1实例相比,Inf2实例吞吐量提升4倍,延时只有1/10,每瓦性能提升45%。
目前,亚马逊云科技自研芯片已形成四大产品组合阵容,包括六代Amazon Nitro系统、四代Amazon Graviton、两代Amazon Trainium和Amazon Inferentia,可支持广泛的应用场景,包括:高性能计算、机器学习、人工智能、容器化应用、数据分析、数据处理领域。比如:在高性能计算领域,Amazon Graviton的多核和高效能特点使其非常适合科学计算、基因组学分析、天气预报等需要强大计算能力的任务。再比如:在重要的机器学习领域,Amazon Graviton在运行TensorFlow、PyTorch等深度学习框架时有出色表现,适合模型训练和推理任务,能更好地满足大量数据处理和矩阵计算需求。与此同时,Amazon Graviton还可以高效支持AI应用的推理部分,在执行图像识别、自然语言处理等实时AI任务时,提供低延迟的计算环境。
在企业智能升级的关键阶段,已有越来越多的用户使用亚马逊云科技的自研芯片。根据云成本管理和优化平台Vantage的一项调查显示:在实例类型的成本支出方面,2024第一季度在Amazon EC2 M7系列通用实例类型上采用Graviton的M7g系列已经超过三分之一(34.5%),2024年第二季度在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务所采用的实例类型中, Graviton已超越了Intel。
以全球知名的游戏制作平台Epic Games为例,该公司早在2021年就在他们的游戏《堡垒之夜》中大规模使用Amazon Graviton的案例,目前已使用了上万个Graviton的芯片来承载他们的游戏业务。从业务表现来看,Graviton带给Epic Games的价值不仅限于《堡垒之夜》这款游戏,还包括了所有使用虚幻引擎构建的游戏服务器。在Epic Games的虚幻5引擎的开源教学游戏Lyra Starter Game的测试场景中,Graviton4相比于Graviton3有超过25%的性价比提升,与Intel Sapphire Rapids和AMD Genoa有30%~35%的性价比提升。
结论:
亚马逊云科技一直在为打造更低成本,更高性能的芯片而努力,以便为用户提供更多选择。然而,芯片创新并非易事,软件故障尚可以轻易修复,但硬件问题通常意味着团队需要从头再来,而且周期可能很长。只有亲身经历,才会感慨于硬件和软件之间的交互有多复杂,需要企业投入更多的耐心以及更多的精力。难怪有人感慨:应对芯片危机,我们需要原始创新,并且唯一的方法是诚实地面对现实和历史。而在脚踏实地、以长期的工匠精神钻研创新方面,亚马逊云科技可以说是所有前行者的楷模。