为什么懂行用户都选择CPU做AI推理?

科技特大号2024-03-11 10:51:27  62

这个世界拼的是“认知”!

比如,AI火了这么多年,很多人还是有个惯性认知:通用算力,CPU好使;搞AI、搞智算,CPU不灵!

这个观点可谓大错特错!

事情的真相是,一个AI工程通常都分为两个阶段的:训练阶段和推理阶段,这俩阶段对算力的要求,天差地别。

对于大多数企业级客户来讲,在通常情况下,很少训练,甚至不训练。

直接买一个标准的大模型或小模型回家,就像买标准软件一样,不需要训练,或者只是微调参数而已。

AI训练只是“一锤子买卖”,而AI推理直接贯穿业务全流程,是一种高频且长期的存在,业务运转的每分每秒都要发生。

所以,懂行的客户会选择CPU来承担日常的AI推理工作。

只因为CPU的特性,完美契合推理需求。

好了,对齐基本的认知之后,我们再来详细探讨下,在AI推理业务中,应该如何选择CPU,才能取得最大收益↓

要求1:能满足高速计算和低延迟?

推理过程需要高速读取和处理输入数据(如图像、视频、语音等),这要求CPU需具备高效数据吞吐能力和高速计算能力。

另一方面,对一些需要实时响应的应用(如自动驾驶等),需要在毫秒级别甚至更多时间完成推理过程,那么低延迟至关重要。

要求2:是否已做了AI方面的优化?

比如,是否支持多种深度学习框架?是否有统一推理前端,不用担心底层硬件兼容问题?是否支持各种加速指令集?...

要求3:TCO如何?能不能Hold住预算?

AI推理的吞吐量是否够大,综合TCO是否更好,成本是否更低?在相同的功耗下,是否能满足吞吐量的要求?

大家关注的问题,我都一一摆出来了,接下来就是捋捋业界有什么样的CPU能够搞定这些需求↓

选来选去,自然是AMD EPYC 处理器

EPYC系列处理器是AMD推出的面向服务器和高性能计算(HPC)市场的CPU,在各大数据中心里,非常常见,大家都太熟了。

目前,AMD EPYC处理器已经“进化”到了第四代。

今天,就拿第四代的代表作—96 Core AMD EPYC 9654 CPU为例,讲讲为什么A厂的CPU在AI推理场景如此“能打”。

我们会从硬件、软件、成本、使用习惯、兼容性等几个方面来逐个拆解,带你深入了解这款AMD出品的AI推理神器↓

?更多的核数,最多到128核,让AI推理算力满格

核数越多,通常意味着算力越强。

AMD EPYC 9654拥有超强96核,还有更夸张的,AMD EPYC 9754(bergamo ),拥有128核。

想象一下,这么多分身一起扛活,多带劲。

所以,AMD EPYC的搬砖能力(数据处理能力)相当牛掰,相对核数少的处理器,碾压优势很明显。

在AI推理时,96核CPU可以同时处理来自成千上万个源的数据推理请求,具备「高并发」能力和「低延迟」本领。

激发多核潜能,依赖于强大的CPU核心架构进行高效调度。

AMD采用了最新的ZEN 4核心技术架构,时钟速率提升14%,单核能力提升高达37%,每时钟周期执行指令数提升15%-24%。

这就好比,单个“小弟”能力更强,而且指挥每个“小弟”的效率又更高,那么组团打怪的本领自然提升了一大截。

如此一来,AMD EPYC就体现出更优的能效比,也就意味着更好的TCO。

比别人小弟多,小弟又个个超能打,而整体饭量(功耗)却不大,这样,同一台服务器可以承载更大的任务量。

?更快的I/O,加速AI推理速度

前面讲的是“搬砖人多,搬砖劲儿大”,但搬砖还涉及到路程↓

“正经”点儿说就是:在AI推理中,CPU需要与存储、网络以及其他硬件设备频繁交换数据,这要考量的就是CPU的I/O能力。

而单颗AMD EPYC 9654支持PCIe Gen 5 × 128,相当于大大拓宽了“高速路”,整成双向八车道。

这样,I/O吞吐就不会成为AI推理的瓶颈。

? 更快的内存,提升AI推理吞吐量

在执行AI推理任务时,内存的传输速率也是非常重要的指标。

AMD EPYC 9654支持最新一代的DDR5内存技术,单颗EPYC 9654处理器支持12个通道,遥遥领先。DDR5具备更高的数据传输速率,且每个DIMM的双通道设计,可以进一步提高内存访问效率,让“搬砖”延迟大大降低。

? 支持各种AI优化指令集,更加原生地支撑AI推理任务

支持 AVX-512指令扩展:可以让CPU一次处理更多数据,允许更宽的向量操作。

这对加速AI推理中大量的矩阵和向量计算非常有用,可以显著提高执行卷积和矩阵乘法的速度。

提供VNNI组件:VNNI是一种特定的技术,专门用于加速AI计算。

VNNI则相当于改进了装卸货物的方法,让整个过程更有效率,这样在AI推理时,能够更快地得出结果。

▌支持BF16数据类型:BF16是一种数据格式,用于深度学习或者其他AI计算,可以减少计算资源开销,同时保持足够的数值精度。

好比一种新的数据“打包”方法,在AI推理时,可在不牺牲结果质量的情况下加快推理速度。

为了能够帮助用户更容易地部署和执行深度学习模型的推理任务,AMD EPYC CPU还做了一系列的软件优化↓

? 提供机器学习图形编译器

能够识别和处理不同机器学习框架(TensorFlow、PyTorch、MXNet等)构建的模型和算法,开发者无需担心底层硬件的兼容性问题。

? 提供AMD优化的 CPU 库(AOCL)

AOCL涵盖了一组针对“Zen”核心架构优化的多个数值库,每个库都针对特定类型的计算任务进行了优化。

AOCL最腻害的地方,是能显著提高应用程序的计算速度。

? ZenDNN

这是AMD推出的一个优化的AI原语库,可以显著提高深度学习模型在这些处理器上的推理效率和性能。

ZenDNN非常适合大量数据和复杂计算的推理任务,比如:实时视频分析,进而监测交通流量、识别可疑行为等。

? Zen Software Studio

是AMD专为其Zen架构处理器设计的一套软件开发套件,用于支持高性能计算应用,如气候模拟、生物信息学分析等,提高大数据和复杂模型处理效率。

搞AI推理,更是小菜一碟。

? 兼容Windows和Linux上运行的软件

这种跨平台的兼容性让开发者省了不少事,不仅方便顺手,还不用担心任何性能损失。

说到兼容性,还有一点也很重要。

AMD EPYC处理器,完美兼容目前各种主流的CPU AI库,比如OneDNN和OpenVINO,还可以在不同的AI框架和库之间无缝切换。

企业开发者无需担心兼容性问题,确保了各种应用和解决方案的高效执行。

? 性价比更高:可利旧、可升级、可焕新

用户可以利旧原有CPU服务器,通过升级来获得性能提升。也可以购买基于AMD EPYC处理器的新服务器,其性价比相当感人。

? 更低的TCO成本:高能效比,永续服务

AI训练可能是“一顿操作猛如虎”,但AI推理任务一旦部署到生产环境,就是一个长期的投入,运维成本、能耗等都必须考虑周全。

AMD EPYC处理器能以较低的能耗完成高效的推理任务。

当然,还有最后一点,也是非常重要↓

跟各种偏门异构加速方案相比,x86 CPU服务器,大家太熟悉啦~

熟悉的架构、熟悉的界面、熟悉的环境、熟悉的运维...,这种熟悉,降低了技术门槛,降低了投入成本,也增强了掌控力!

所以,懂行、精明用户在AI推理时,当然是选择老朋友—AMD EPYC处理器!

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/6379.html
0
随机主题
墨西哥一场总统竞选活动发生舞台倒塌事故 数十人死伤现货金价短期仍面临回调修正业内人士点评中超:观赏性提高,但节奏很慢,没接近现代足球!陈哲远出道时碰到伊能静,是娱乐圈给他的最大善意冷门英雄扁鹊的重生, 体验服迎来全面增强世界3大无主之地: 前2块已被私人宣布建国, 最后1块无人敢占领!中俄多个大动作落地,美债连续三个月缩减,美联储发现绷不住了朱元璋为什么要列出15个不征之国? 它们分别是谁?法国宣布试射空射核导弹止损不是目的,进场的确定性远比止损重要你们觉得我这个车改成什么颜色比较适合?如果你们想洗车贴膜这些,这家店真的值得推荐青发控股集团: 贸易创新为高水平开放助力董军会见南非海军司令17.2%! 大规模设备更新释放经济增长后劲阿隆索颁奖典礼一个举动让人感动!优雅少帅、未来可期5月24日地狱火重燃! 168碎片新选择, 廉颇黄金金牛座来袭BG推文《拉上始皇去造反》女帝文,超有野心一门心思造反的女主没想到她居然造的自己亲爹的反,收服的大才是自己的亲爹都2024年了, 为何还有那么多人选择买手动挡? 我说这才是根本原因小白用户能不能买卡贴机大众SUV起家的旗舰车型, 途观L在众多人眼里依旧能打最佳阵出炉后,小伙要拿7000万年薪,老詹创4个神迹,浓眉是唯一
最新回复(0)