AMD技术日干货解析: 获得市场成功后, 设计已更成熟

三易生活2024-07-15 21:03:40 86

如果有关注我们三易生活此前的内容可能就知道，在今年6月的COMPUTEX电脑展期间，AMD与Intel先后公布了他们的下一代移动和桌面端CPU相关信息。

但也就在此之后，这两家厂商“不约而同”地没有将新品直接在6月开卖。根据此前传出来的一些说法，他们似乎都选择了在最初的发布之后，对新品重新进行最后一轮的调整和优化。当时间来到2024年7月中旬，随着AMD在美国洛杉矶召开Tech Day，关于其全新一代桌面和移动平台的更多详情也终于浮出了水面。

Zen5架构解析：更“豪横”的设计，完整512bit向量

我们先来看看全新Zen5 CPU架构的改变。根据官方公布的技术细节来看，Zen5并不属于那种“推倒重来”式的全新设计，但绝对可以说它足够“豪气堆料”，体现了如今AMD在CPU领域高歌猛进的市场态势。

首先在前端部分，Zen5采用了双管线预取设计，同时搭配了改进的分支预测算法。官方的说法是它既降低了预测延迟、提高了准确度，还增大的吞吐量。与此同时，它还有两组4宽度的指令解码单元，以及与之搭配的8宽度Dispatch单元。

而在执行部分，单个Zen5核心拥有6个ALU（算术逻辑单元）、8宽度的整数重命名单元，以及更大的ALU调度器和更大的执行窗口。

除此之外，相比于此前Zen4所采用、双256bit的向量浮点单元设计，Zen5终于拥有了真正完整512bit字长的向量加速器。这就意味着它在运行AVX-512指令集时，不再需要有“拆解”指令集的步骤，可显著提升某些高负载游戏、多媒体编辑，以及AI计算的性能。

顺带一提，虽然AVX-512是Intel率先提出的标准，但由于众所周知的大小核架构设计问题，家用的酷睿处理器至少要到下下代才有可能重新具备512bit向量指令集。因此对于有重负载多媒体需求的用户来说，Zen5这一次可能会有更大的优势。

最后在核内缓存设计上，每一颗Zen5内核拥有32KB L1指令缓存、48KB L1数据缓存，以及1MB的L2缓存。如果将它与Zen4对比就会发现，新架构的L1数据缓存增大了50%。此外AMD方面还表示，L1缓存到CPU浮点单元的峰值带宽现在也增大了一倍。不过从Zen5并没有大幅增加L2缓存大小这一点来看，AMD到底还是考量了产品的成本，并没有因为用上了台积电N4X制程就过于“放飞”。

在执行单元、缓存设计、预取算法的多重加持下，AMD Zen5的平均IPC提升大约是16%，但如果是在机器学习、AES解密等重数学加速场景下，那么其架构进步幅度则可达到30%以上。考虑到如今还没有任何一家推出内置NPU的桌面CPU产品，AMD在Zen5的CPU架构里强调机器学习性能，自然是相当有针对性的一种设计。

RDNA3.5 GPU：官方说改进是为了效率，但可能还有伏笔

接下来，AMD方面较为详细地解析了他们RDNA3.5图形架构的设计。其与Zen5、Zen5c内核,以及XDNA2 NPU一起，被集成到了AMD的最新一代锐龙AI移动平台里。

或许正因如此，新的RDNA3.5架构从一开始就考虑到了能效比以及它们相互之间的“协同”因素。与目前大家更熟悉、用在AMD独显上的RDNA3.0相比，其客观上也存在着一些有趣的变化。

首先，RDNA3.5拥有两倍于RDNA3的纹理采样率，同时将着色器内部的插值和比较操作的速率也进行了翻倍。虽然AMD方面宣称这些改进旨在增强核显的能效比，但熟悉AMD GPU的朋友估计也能看出来，这些改进的本质普遍在于提高RDNA3.5的“传统光栅性能”，也就是非光追、非AI超分时的3D画面生成速度。而这，恰恰是目前AMD GPU的长处。

其次，RDNA3.5架构还改善了内存控制器，它使用了更好的数据压缩算法，降低了显存负载。AMD称其改善了新GPU的“每比特性能”，说得更通俗一点，这其实也可以理解为新的GPU降低了对PC内存频率的相对需求。

请注意，这个降低是“相对”的。因为大家都知道，新一代的Radeon 890M核显拥有更大规模的计算阵列，如果不改善内存效率，那么从理论上来说，它就会需要等比例地提升内存频率才能“喂饱”这些增加的GPU核心，而这显然会大幅增加产品的成本。所以不管是为了让锐龙平台的笔记本电脑更亲民，还是为了让传说中的超大核显APU未来能够真正成立，改善GPU的内存效率都是极其必要的一步。

XDNA2 NPU：不只有最高算力，更在精度上格外领先

说实在的，如果熟悉AMD现在的AI产品线，你可能会觉得有一点困惑。因为对于当前的AMD来说，他们实际上相当于有两条不同来源、不同架构，而且完全不共享软件生态的AI加速器设计。其中一套源自显卡团队，被用于那些CDNA架构的计算卡，以及被集成在RDNA3.0架构的独显内部。

而另外一套，则是源自被AMD收购的赛灵思团队，他们的XDNA加速器有自己独立的产品线。与此同时，从锐龙7000系开始，XDNA也被集成进了AMD的移动APU，作为其中的“NPU”使用。

好在随着此前锐龙7000系、8000系两代移动平台在市场上大获成功，AMD如今似乎也逐步坚定了他们在家用AI解决方案上的选择。在最新的锐龙AI 300系列里，我们就见到了新的XDNA2架构设计。

与XDNA初代相比，新的集成NPU将内部的AI引擎切片数量从20个增加到了32个，同时将每个切片的MACs（乘加累计操作）性能提升为原来的两倍，还将NPU的内置缓存增大了60%。

从结论来说，XDNA2在目前版本的锐龙AI 300系CPU里，可提供50TOPs的独立AI算力。而这，就使得它成为了当前已经发布、性能最强的PC集成NPU方案。

而且AMD这套NPU还有个很特别的地方，那就是它支持“Block FP16”浮点格式，并且在该格式下依然可以跑到50TOPs的满速。相比之下，其他家的NPU多半只能用INT8格式才能“跑满”，如果运行FP16的AI计算、速度就会减半。

这也就是为什么AMD会格外强调，XDNA2 FP16 AI计算速度的原因。毕竟大家都知道，对于现在的AI推理项目来说，FP16确实能够带来比INT8高得多的精度优势。所以单纯从技术层面来说，AMD的这套XDNA2 NPU无论在理论速度、还是理论精度上，确实都能将竞争对手的同代NPU“压着打”。

结语：市场表现加速进击，AMD的路正在越走越宽

以上基本就是AMD在此次Tech Day期间，所公布新品架构上的一些细节信息了，不知道大家看之后有什么感想呢？

在我们三易生活看来，纵观AMD此次新品，最大的感受就是过去几年里所取得的市场成功，确实给了AMD更大的底气，使得他们“敢于”使用一些更激进的设计，去追求CPU更高的多媒体吞吐率、GPU更大的核显规格，以及NPU上行业领先的计算理念。

与此同时，更加可贵的一点在于，AMD始终没有放弃产品设计上对于“性价比”、特别是对于家用和游戏用户的重视。这一点，从Zen5 CPU不盲目堆缓存容量，以及RDNA3.5优先增强光栅性能、而不是再去增强AI特性，其实就都能看得非常清楚。

当然，有些朋友可能还是会有疑虑，他们会觉得这种讨好游戏玩家的设计不够有“噱头”，面对竞争对手以“创意”、“专业向”为主的宣传方式，AMD在市场宣传层面或许会吃亏。

但很显然，PC厂商就看得很清楚。一方面，作为AMD此次活动的嘉宾之一，华硕方面就在现场发布了旗下包括游戏本、创意工作站、轻薄本在内的多个产品线的新品，从而有力地证明了锐龙移动平台如今的“全能型”。

另一方面，根据AMD官方公布的数据显示，从初代锐龙AI平台到如今的第三代方案，对应市面上的产品款式数量不断增加，而且几乎呈现出持续翻倍的态势。比起各种PPT上的胜负，由产品数量所直接反映出的市场信心，很明显才是AMD如今真正的底气所在。

况且从AMD此次所公布的信息来看，显然不能排除它背后还有一些“伏笔”。比如前面已经提到、曝光许久的超大型RDNA3.5核显设计，又比如未来AMD独显产品线与XDNA NPU的融合。可以说在经过了5000系到8000系的不断探索之后，AMD如今的产品规划、技术路线开始重新呈现出更加成熟的特征。而这也让外界对于他们的未来，确实将会抱有更多信心与期待。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/897310.html

随机主题

一年级幸子小场地回合节奏感越来越好喽不服不行! 华为的科技自立真的太绝了刘亦菲: 美得跟画一样《法外枭雄: 滚石城》Steam版6月18日发售汪小菲状告大S 球王待遇！超远任意球还得2人堵门，盐湖城为了防梅西真的是绞尽脑汁英国国防大臣称: 欧洲的中立国如果还想得到保护, 就必须加入北约真正厉害的人在这方面做得都很“绝”18万落地, 帕萨特380和汉DM-i谁是更好的选择老牌工业镇走出“小巨人”, “小五金之乡”全球掘“金”|高质量发展调研行听我的劝告: 早入手小米14 Pro的人别轻易看价格, 你会后悔美股收评: 三大指数集体下跌, 太阳能、通讯设备板块走高, 金属、采矿、油气股跌幅居前庆余年2唯一输家: 最牛星二代跌下神坛, 演技尴尬, 全程被吊打短篇小说: 苦尽甘来英雄年代手游: 勇气与智慧的结合, 十年之约经典回归!以案说法: 员工不服从合理调岗被辞退用人单位无需赔偿上汽确认: 飞凡推新R7, 动力大调整! 销售: 现款清库-仅16万出口超1000万美元！长兴这家企业忙飞了不努力怎么能见??箭最后一招叫什么 520的瓜相比汪峰杨洋, 70岁的大咖的瓜让人意外, 姜还是老的辣

最新回复(0)