Zen 5对比初代已提升85%! AMD CPU/GPU/NPU三大新架构揭秘

驱动之家2024-07-17 18:23:40 125

6月初的台北电脑展上，AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器、锐龙9000系列桌面处理器，均将在7月份上市。

当时，AMD比较罕见地大方公布了具体型号命名、规格参数(隔壁的Lunar Lake还只有架构和技术)，不过关于新的CPU/GPU/NPU架构并没有讲太多，桌面上的新一代主板芯片组也只说了一个大概，算是留了一些悬念。

上周，AMD特意在美国举办了一场Zen 5 Tech Day技术活动，终于揭开了新架构的神秘面纱，并公布了更多性能数据、技术特性，尤其是新的处理器与内存超频。

至于确切的上市时间，锐龙AI 300笔记本是7月28日，锐龙9000系列是7月31日。

【Zen 5架构：整体加宽加大、独享Intel秘笈】

Zen架构诞生于2017年，相比于此前的推土机架构IPC大幅提升52％，远超当初设定的40％目标，在整个微处理器历史上都是极为罕见的进步。

7年来，Zen架构不断深入打磨，如今已经演化到第五代，是一次相当大幅度的变革，包括增加每时钟周期指令数、拓展指令分派与执行带宽、翻倍缓存数据带宽、AI加速等等。

CPU架构设计是一个极为复杂的工程，哪怕是个升级版本。

Mike Clark已经在AMD工作了31年之久，如今是AMD院士、芯片设计工程师，也是历年来Zen架构研发的灵魂人物，被称为“Zen之父”(Father of Zen)、“Zen老爹”(Zen Daddy)。

他动情地表示，人们往往意识不到CPU架构设计有多难，需要多么漫长的时间，比如Zen 5的研发，就是全球多地大量的设计、验证、软件等团队多年来全身心投入的心血结晶，它甚至已经融入了大家的血液之中，很多人吃饭甚至做梦的时候都想着它，而最终看到自己的努力开花结果，是一件相当了不起的事情。

Zen 5的三位设计师，左一为Mike Clark

接下来我们就看看Zen 5架构在不同模块的变化，当然我们只能大略地讲一讲高级层面的，不涉及太深入的细节。

其实，现代CPU架构都有着成熟的体系，整体可分为前端、后端两大部分，细分包括指令预取与解码、整数执行、浮点执行、载入存储、缓存等不同单元模块。

除非出现完全颠覆性的计算体系，CPU架构设计师要做的，就是根据预设目标，确定不同单元模块的规格规模，然后有机地组合为一个整体，发挥出最大效率，既不能造成浪费，也不能出现瓶颈。

就像一条水渠或者水管，一般情况下自然是水流量越大越好，但也不能一味地加宽加粗，从源头到末端要整体协调一致，既不能让水不够了，也不能让水堵住了，讲究的就是一个平衡。

Zen 5的整体思路就是适当放大规模，很多地方甚至翻番，比如前端部分改成了双预取、双解码流水线，可以更高效地处理各种负载，打个比方就是源头水闸更开放，能释放的水流量更足。

同时，分支预测也做了极大提升，吞吐量更大，精度更高，延迟更低，而且指令缓存的延迟和带宽同样得到了提升，就像是水渠也更宽敞了，面对更多的水流不会出现溢出情况。

整数执行单元加宽了指令的分派与执行通道，包括分派与引退增加到8个宽度，执行窗口增大，一体化ALU调度器数量更多，包括六个ALU与四个AGU。

浮点与矢量执行单元那部分，最核心变化就是在Zen 4架构引入AVX-512指令集的基础上，从仅支持256位数据宽度，强化为支持完整的512位。

256位下的灵活性更高，因为不是所有的指令都需要用到512位这么宽，而现在加入512位满血版之后，可长可短，可以在保持灵活性的同时，大大提升执行效率和性能。

更耐人寻味的是，Intel方面由于异构混合架构设计的缘故，新一代的Lunar Lake、Arrow Lake都不支持AVX-512，何时能够回归也不一定。

谁能想到，Intel当年的独门武器，如今反而成了AMD的私房菜。

另外，浮点单元的流水线有6条，FADD指令的延迟只有2个时钟周期。

载入存储单元部分大大提升了数据带宽，其中一级数据缓存容量从32KB增大到48KB，同时从8路增强为12路。

通往一级缓存、浮点单元的最大带宽，也比上代翻了一番，并改进了相应的数据预取。

另外，数学加速单元的性能有了突飞猛进，单核心执行数学学习、AES-XTS指令的速度分别可提升最多32％、35％。

这有啥好处？当然是可以极大地加速AI运算的效率，更适应当下环境，特别是在EPYC处理器中搭配Instinct加速器，效果更是相得益彰。

凭借这一系列改进，Zen 5架构的IPC提升平均多达16％(可以理解为同频性能提升)，部分场景提升甚至高达35％。

其中贡献最大的是指令执行与引退部分的改进，然后是数据带宽、指令解码与OP缓存的提升，最后是指令预取与分支预测的变化。

根据历年的官方数据，Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分别为3％、15％、19％、13％。

五代六个版本演进累积下来，Zen 5相比于初代Zen IPC平均提升幅度已经高达约85％！

别忘了频率也在不断拉高，初代最高只有4.0GHz，如今已经高达5.7GHz，提升幅度约43％。

产品方面，面向台式机的锐龙9000系列，会使用纯粹的Zen 5，还是CCD＋IOD的组合。

CCD部分工艺从5nm升级为4nm，每个里边最多8核心，总计最多16核心。

IOD部分沿用锐龙7000系列的，因此还是6nm，集成两个RDNA 2架构的GPU图形核心。

移动端的锐龙AI 300系列全部都是Zen 5、Zen 5c的组合，如上图右下角部分，下方四个橙色调的是Zen 5，上方八个紫红色调的是Zen 5c。

不同于Intel异构架构，Zen 5、Zen 5c还是完全相同的架构设计、IPC性能、ISA指令集，不同之处只是后者缓存更小、频率更低(但能效更高)。

锐龙AI 300系列的制造工艺为4nm，和上代锐龙7000/8000系列一样。

在数据中心端，第五代Turin EPYC将在今年下半年发布，使用先进的4nm、3nm工艺组合，这也是AMD第一次引入3nm。

Turin EPYC将升级到多达192核心384线程，新特性方面官方特别提到了基于Trust IO功能的AI加密，无疑可以更好地满足当今的云端AI部署需求。

接下来，我们将会看到Zen 6、Zen 6c，后续的Zen 7也在研发之中，你猜都会用什么工艺？

【RDNA 3.5架构：三大优化跑分飙升32％】

凭借雄厚的积累，AMD在集显领域一直独领风骚，锐龙AI 300系列更是集成了专门设计的RDNA 3.5架构，并扩大了核心规模，新一代的Radeon 800M系列再上一个新台阶，根本找不到敌手。

RDNA 3.5在架构设计上自然承袭了RX 7000独立显卡使用的RDNA 3，并针对笔记本的应用场景需求做了三个方面的专门优化：

一是优化能效比。

比如，大多数通用纹理采样操作的速率翻了一倍，大多数差值、对比用的富矢量指令集的速率也翻了一番，可以大大提升常规游戏中的纹理、着色性能。

二是优化内存性能(performance/bit)。

通过改进原语批处理，减少对系统内存的依赖和占用，效率也更高，特别是优化对LPDDR5内存的访问和使用，此外还改进了压缩技术、降低了负载。

三是优化电池续航。

通过集成先进的电源管理机制，可以大大降低活跃状态下的功耗，对笔记本更加友好。

按照官方说法，在同样的15W功耗释放下，Radeon 800M系列对比前代的3DMark理论性能，在Night Raid和Timespy项目中分别提升了多达19%、32％。

当然，理论跑分不等于实际游戏性能，但是OEM厂商也可以灵活设定功耗释放，配合更高频率的内存，进一步挖掘RDNA 3.5的潜力。

【XDNA 2 NPU架构：算力全球第一、首发全新数据格式】

锐龙7040系列是全球第一款集成NPU AI独立引擎的x86处理器，锐龙8040系列在此基础上大幅提升性能。

目前，AMD已经积累了丰富的AI PC生态，硬件方面有宏碁、华硕、戴尔、惠普、联想等各大品牌的支持，软件方面发展了100多个AI优化功能，无论是Windows 11系统本身，还是Adobe、Black Magic、Blender、Topaz Labs、Webex、Zoom等头部应用都已支持。

AMD预计今年会有150多家ISV软件商支持AMD AI PC功能。

锐龙AI 300系列升级到了全新的XDNA 2架构，也是AMD的新一代NPU。

最直观的变化，就是AI引擎单元从20个大幅增加到32个(分为四行八列)，而每个单元内的MAC数量也翻了一番。

再加上板载内存容量增加1.6倍、Block FP16块状浮点格式支持、非线性增强支持、8条并发空间流(翻倍)，算力从初代的10 TOPS大幅增加到50 TOPS (INT8和Block FP16)。

这是全球第一个达到如此高度的NPU，远超Intel Lunar Lake、高通骁龙X Elite、苹果M4等竞品。

值得一提的是，XDNA 2不但增加了核心单元，还可以灵活分区使用，包括空间分区、时间分区。

空间分区适合并发实时模型，可以将不同列的核心单元分配给不同的任务，比如2个列负责实时视频、2个列负责实时音频、4个列负责App应用。

时间分区适合大模型，可以整体先后执行不同的任务，比如先全力处理LLM大语言模型，然后集体进行视频编辑。

根据负载不同，XDNA 2可以按照一个或多个列分别开关(4/8/16/20/24/28/32)，也就是轻度任务下能关掉部分核心，从而节省功耗，能效比初代提高了一倍。

对于AI应用来说，数据类型是至关重要的，XDNA 2架构行业首创支持了开放的Block FP16浮点格式，综合了8位数据的性能、16位数据的精度。

它本质上也是一种16位格式，因此拥有非常接近传统FP16(单精度)甚至是FP32(双精度)的高精度，AMD官方数据显示一般可以做到FP32格式的99.7％到100％，也就是几乎无损，可以无缝衔接使用FP16、FP32、BF16训练的模型，不需要额外的量化。

此外，Block FP16还有着类似9位格式的存储空间、8位格式的吞吐性能，因此模型体积相比于FP16可减小足足44％，计算性能与INT8格式相当、是FP16的两倍。

AMD宣称，Llamav2 7B大模型用上锐龙AI 300系列、Block FP16格式，响应速度可以达到Intel酷睿Ultra 100处理器的整整5倍。

AMD现场就演示了锐龙AI 300处理器运行Llama 2 7B大模型时的RAG(检索增强能力)。

比如直接问它AMD的新一代NPU架构的名字，因为没有学习过，就会胡乱回答什么7nm RDNA，然后喂给它AMD在台北电脑展上的演讲，它立刻就能学习并给出正确的答案，不仅知道XDNA 2架构的名字，还知道它的新特性。

NPU能力的发挥，离不开开发平台的支持，AMD也制定了长期、稳定的锐龙AI路线图。

第三季度将有锐龙AI 1.2版本，正式支持Block FP16数据格式、C++ API，以及各种最新AI模型，比如Llama 2/3、通义千问1.5、Stable Diffusion XL-Turbo等等。

第四季度升级到1.3版本，扩展支持更多模型，并首次支持WSL Linux子系统。

明年第一季度继续升级到1.4版本，首次带来AMD一体化AI堆栈，并继续为新的SOTA Gen模型进行优化。

AMD还举了一个典型案例，能将手机作为专业摄像头的免费软件Camo，已经支持AMD NPU，而且得益于方便的锐龙AI开发套件，可以轻松将现有的ONNX运行模型从GPU集显迁移到NPU上。

AMD还披露了下一代NPU的规划，算力、能力进一步强化，可以直接处理大模型，更多接手和分担CPU、GPU的工作。

【锐龙9000系列与芯片组、超频：内存玩出花】

锐龙9000系列首发四款型号的规格大家都已经有所了解，不再赘述了。

从定位上讲，锐龙9 9900X、锐龙7 9700X、锐龙5 9600X对标的分别是i9-14900K、i7-14700K、i5-14600K。

至于旗舰级的锐龙9 9950X……寂寞无敌啊。

值得一提的是，之前有传闻称AMD有意提高锐龙7 9700X的功耗，从现有的65W开放到120W，从而在性能上超过锐龙7000X3D，但最终还是选择了按兵不动。

毕竟，锐龙9000X3D也不远了，而且按照AMD给出的数据，65W的锐龙7 9700X游戏性能已经领先于初代3D缓存版105W功耗释放的锐龙7 5800X3D，而且功耗更低，这就够了。

锐龙9000系列每一款型号的性能都比前代有了较大的提升，少则11％、多则22％不等，但更值得关注的是功耗反而更低了，除了旗舰锐龙9 9950X之外热设计功耗都降低了一个档次，锐龙7 9700X、锐龙5 9600X更是只有以往标准版的水平。

除了新架构、新工艺，这也得益于散热能力的提升，官方表示改进了15％，因此还带来了另一个好处，就是温度更低，同等TDP下一般要低7℃左右。

超频方面，AMD第二代支持DDR5内存，已经掌握得相当熟练，玩法更多了。

默认频率支持为JEDEC 5600MHz，通过新的AGESA代码和BIOS更新，可以轻松超到8000MHz。

新增内存实时超频，可以在系统正常运行过程中，搭配内存优化性能配置档案，随时通过Ryzen Master软件，一键超至自己需要的频率，也可以随时切换回来。

更进一步地，所有AM5平台芯片组都会开放内存超频，不做限制，当然超频能力肯定会有所不同，具体要看主板相关设计。

处理器超频的话，最方便的自然是直接打开PBO，交给系统自行处理，一般来说能轻松带来6-15％的性能加持。

如果你动手能力比较强，要挖掘更多潜力，AMD也在继承原有Curve Opitimizer的同时，提供了新的“Curve Shaper”。

Curve Shaper更进一步允许玩家最大化地调节降压曲线，提供多达15组频率/温度组合(3种温度+5种频率)，可以自行添加或删除，但暂时还不支持自定义具体数值。

注意，这一设置适用于所有核心，不能单独针对某个核心进行调节。

芯片组方面是新的AMD 800系列，旗舰型号是X870E，双芯片，相比于X670E主要是标配USB4接口，支持更高DDR5 EXPO频率。

X870简化为单芯片，PCIe扩展会少一些，但是也会更便宜。

B850用于取代B650，显卡升级支持PCIe 5.0。

B840是新增的低端型号，不支持处理器超频，但可以超内存，显卡和SSD都是PCIe 4.0，也不支持USB4，扩展通道只有PCIe 3.0。

不得不夸一下AMD接口的长寿命，实在良心——Intel Arrow Lake可是又要更换LGA 1851。

AM4经历了长达9年的生命周期，累计发展出了145款CPU/APU处理器。

AM5刚刚进入第二代，已有产品38款，官方承诺将会延续到2027+年，比之前说的2026+年又多了一年。

【锐龙AI 300系列：骁龙X Elite根本不够看】

锐龙AI 300系列更简单，首发只有两款型号，锐龙AI 9 HX 370、锐龙AI 9 365，关于它们的规格参数也不再重复。

可以确认的是，锐龙AI 9 HX 370包含4个Zen 5、8个Zen 5c核心，锐龙AI 9 365则是4个Zen 5、6个Zen 5c的组合。

AMD官方也确认，这种组合设计只用于笔记本移动端，不会用于桌面。这和Intel的大小核大相径庭。

性能方面，AMD不仅对比了酷睿Ultra9 185H，更对比了势态咄咄逼人的高通骁龙X Elite，无论CPU生产力、内容创作性能，还是GPU游戏性能，自然都不是对方可以媲美的，差距相当明显。

特别是高通的ARM架构在Windows PC下面临着难以根治的兼容性问题，在x86阵营超过60亿台Windows设备、超过10万款Windows游戏、超过3500万款Windows应用的生态面前不值一提，尤其是不少游戏甚至根本跑不起来。

新一代的Radeon 890M则凭借升级的RDNA 3.5架构、更多的核心单元(16个)，已经可以在高画质下流畅运行不少3A游戏。

AI方面，锐龙AI 300系列一方面与微软密切合作，完全支持Windows 11 Copilot+的各项功能，包括回顾、视频会议、实时翻译、共同创作等，各大OEM厂商也在纷纷开发推广各自的AI应用。

比如华硕的StoryCube、华擎的LiveArt、惠普的AI Companion、联想的小天智能体等等。

更何况，AMD有着行业唯一的全链条AI平台，从云侧到边缘计算，从企业到消费级，强大的CPU、GPU、NPU三位一体，可以带来全范围、无妥协的AI体验。

锐龙AI 300系列，也必将是AI PC历史上浓墨重彩的一笔。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/910659.html

随机主题

【猛男快报】英特尔月湖信息解禁，三大内核全更新，确认今年Q3发布！曝下一款《古墓丽影》以印度为背景! 完全开放世界吉利缤越cool最新落地参考和配置分析眉山仁寿: 夏日好风景, 公园美名城舒淇宝格丽晚宴洞洞鞋穿出高级感她长得漂亮、演技好, 清华教授等她9年才结婚, 每月给10万零花钱关爱老人免费体检浙江省生物多样性保护优秀案例公布 | “象山县全民守护中华凤头燕鸥”案例成功入选地球班往事: 苏联解体时, 俄罗斯继承了1000亿债权, 要回来多少?丰田海狮即将上市喜讯! 叶檀说自己复查又一个120分! 网友: 希望蔡磊也有好运气!内蒙古打掉一个网络水军团伙, 13人获刑日媒: 初创企业成乌军用无人机开发主力 “俄罗斯之心”文化艺术节6月将在北京举办你不知道的冷知识——荷兰篇听我的劝告: 早入手小米14 Pro的人别轻易看价格, 你会后悔原来华为手机还藏了3个功能，这都不知手机白买，学到就是赚到 #生活小技巧安理会交锋，中俄决议草案被拦下，现场7对7，名单上都不是善茬小米SU7上市之后，新能源二手车绷不住了，特斯拉也拉裤兜子了创新新材: 5月22日召开业绩说明会, 投资者参与低空经济利好不断! 炒作风暴有望继续爆发! 相关概念和潜力股曝光!

最新回复(1)

森林娱乐2024-07-18 06:58
引用1楼
这个对比有意义吗？对比10年前的cpu提升好几倍呢[呲牙笑]