大甲方 PK 大模型！-人工智能专区

大甲方 PK 大模型！

作者：厂商动态编辑：张丽慧 2023-06-26 16:44 来源：厂商稿

　　你知道现在国内有多少大模型吗

　　嘿嘿，说出来吓你一大跳

　　我手贱粗粗进行了不完全统计

　　说“百模大战”，绝对不过分

　　一时间，大模型就像AI救世主

　　拳打元宇宙，脚踢WEB3

　　还叫嚣着要把传统AI按在地上摩擦

　　这些一股脑“all in 大模型”的玩家

　　大多都有两个特点

　　1、家底殷实，能烧得起钱来炼模型

　　2、以“乙方”公司为主

　　急需一个拿捏住客户的AI破局利器

　　↓

　　可是，看看那些

　　真正想为AI买单的大甲方们

　　没听说谁在训练大模型

　　而乙方们造的这些大模型

　　除了在AIGC场景可以快速落地

　　碰到大甲方的垂直业务场景还是一头雾水

　　其实，大甲方们都精明得很

　　他们心里琢磨着三件事

　　↓

　　❶

　　不惜血本投入专用硬件炼大模型

　　更像是割韭菜、智商税

　　眼下手里那些火烧眉毛的急活儿

　　我希望能短平快、多快好省地搞定

　　（其实不光甲方肉疼，前面那些“不差钱儿”的乙方也苦加速卡久矣）

　　❷

　　当大模型真能落地的时候

　　我如何高性价比地适配并部署推理应用

　　❸

　　如果哪天，我自己真想要炼个大模型

　　有什么摸着石头过河的好方法？

　　所以呢，行情就是这么个行情

　　但大甲方们都务实的很

　　最看重的还是降本增效，解决实际问题

　　那这灵魂三问，该怎么解？

　　有没有踏踏实实能整活儿的？

　　▼

　　众里寻“他”千百度，蓦然回首

　　那人却在，灯火阑珊处

　　没错，这个踏踏实实整大活儿的

　　正是「英特尔」

　　↓

　　因为，从甲方看重ROI的立场出发

　　按行业分类的「中小模型」

　　更符合当下垂直行业的应用需求

　　因此，英特尔率先亮剑，发布了

　　「第四代英特尔®️至强®️可扩展处理器」

　　内置各种硬件加速器

　　被称为10年来数据中心级处理器最大提升

　　这些内置硬件加速器，个个大力出奇迹

　　为各种苛刻场景提供加速输出

　　（详情可以看这篇：这届CPU，说最狠的话，背最多的锅！）

　　其中，尤其针对「中小模型」应用场景

　　有一个特别“霸道”的加速器，这就是

　　↓

　　有多霸道？先说结果吧

　　有了AMX内置加速引擎

　　运行AI训练和推理任务的速度

　　比上一代产品能快3到10倍！

　　怎么做到的呢？

　　AMX是从指令集层面来实现加速的

　　可以显著加速深度学习算法中的矢量计算

　　具体来看，AMX结构上包含两大部分

　　①一组叫做TILE的二维寄存器

　　②一组叫做TMUL的硬件逻辑

　　↓

　　相对于以前512比特的一维向量

　　如今的二维寄存器有了矩阵的概念

　　可以存储和操作更大的数据块

　　（8个寄存器，每个1KB）

　　而TMUL调用寄存器执行矩阵乘法运算

　　每个时钟周期完成2K次INT8或1K次BF16运算

　　说白了，在AI深度学习中

　　主要的算力开销就是矩阵乘法

　　AMX用TILES寄存器来存放矩阵

　　用TMUL硬件逻辑来完成矩阵乘法

　　这是一种「硬解」

　　↓

　　实际加速效果如何呢？

　　跟上一代没有AMX加持的处理器相比

　　运行浮点运算（BF16），可以提升16倍

　　而BF16是目前AI计算中最常用的数据类型

　　↓

　　注意哦，这是加速引擎额外提供的加成

　　并不耽误CPU干其他的通用计算任务

　　这就好比着用户买了一辆多功能跑车

　　平常可以都市代步通勤（通用算力）

　　一换挡秒变F1赛车驰骋赛场（AI算力）

　　这看起来不是炸裂的放卫星技术

　　但却非常实惠，堪称多快好省搞AI的利器

　　所以，一经发布，各方大佬纷纷出手

　　最关注性价比的他们，自然不会错过

　　↓

　　阿里云基于第四代至强®️，率先推出最新计算实例ECS g8i，有了AMX加速器的加持，深度学习性能大幅飙升。（训练性能提升2倍+，推理性能提升4倍）

　　腾讯则利用英特尔®️AMX优化BERT模型，显著提升了模型性能，并得以节省在部署昂贵的专用硬件、扩容服务器节点等方面的支出。

　　美团在多个视觉AI模型中，通过采用英特尔®️AMX加速技术，动态将模型数据类型从FP32转换为BF16，增加吞吐量并加速推理，性能实现3.38-4.13倍提升，精度损失大部分可以控制在0.01%-0.03%。得益于性能提升，美团能够降低视觉AI服务的投资规模，并节省70%的服务成本

　　总之

　　互联网大佬们都在用英特尔®️AMX

　　而且已经深刻体会到了加速的快感

　　那么，我们再看看大甲方的灵魂三问

　　英特尔能搞定吗？

　　↓

　　第一，对于那些经典AI的问题

　　其实很简单

　　大甲方手里有数据，有具体业务场景

　　那就按照标准AI流水线的套路

　　轻车熟路地来跑就可以

　　在这个过程中，CPU是主力扛活的

　　大甲方不用下血本买什么加速卡

　　不必整什么大集群大阵仗

　　使用他们熟悉又亲切的CPU解决方案

　　只需给通用算力集群来个“换挡”操作

　　把英特尔®️AMX的潜能激活

　　嘿嘿，走起，享受一下“松弛感”

　　来看具体落地，下面这组数据非常明显

　　对付各种主流场景无论训练还是推理

　　有了AMX，性能飙到飞起

　　关键是，不依赖额外的加速卡

　　通用计算+AI计算通吃

　　↓

　　第二，如何把大模型快速适配到生产环境

　　大模型落地到B端业务场景

　　主要是适配和推理部署的问题

　　这里，我们要普及一个事实

　　全球70%的数据中心AI推理任务

　　是在英特尔®️至强®️可扩展处理器上运行的

　　如今，有了AMX加速助力

　　更是如虎添翼

　　用户可以一边运行通用工作负载

　　一边轻松完成大模型的部署推理

　　第三，未来甲方自己想炼大模型怎么整

　　针对这个需求

　　英特尔给出了大模型/生成式AI「全家桶」

　　【SPR+Habana/Xe+oneAPI】

　　❶ 集成AMX加速引擎的CPU：也就是第四代英特尔®️至强®️可扩展处理器及后续产品；

　　❷ Habana加速卡与XE GPU：包括Gaudi2、GPU Max系列、Flex系列GPU等等，性能爆棚；

　　❸oneAPI：面向各类计算架构的统一编程模型和应用程序接口，串联所有，一统江湖，极大降低AI开发者工作量。

　　至此，三个让甲方焦虑的问题

　　英特尔都给出了解决方案

　　不得不说，姜还是老的辣

　　无论看得清的AI需求

　　还是看不清的AI需求

　　你可以永远相信英特尔！

　　针对通用计算、AI推理、AI训练，小/中/大模型，英特尔全部都有高性价比解决方案，另外别忘了，英特尔还有强大且免费的AI软件和技术支撑服务。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

关注我们

​大甲方 PK 大模型！

大甲方 PK 大模型！