如果有关注我们三易生活此前的内容可能就知道,在今年6月的COMPUTEX电脑展期间,AMD与Intel先后公布了他们的下一代移动和桌面端CPU相关信息。
但也就在此之后,这两家厂商“不约而同”地没有将新品直接在6月开卖。根据此前传出来的一些说法,他们似乎都选择了在最初的发布之后,对新品重新进行最后一轮的调整和优化。当时间来到2024年7月中旬,随着AMD在美国洛杉矶召开Tech Day,关于其全新一代桌面和移动平台的更多详情也终于浮出了水面。
Zen5架构解析:更“豪横”的设计,完整512bit向量
我们先来看看全新Zen5 CPU架构的改变。根据官方公布的技术细节来看,Zen5并不属于那种“推倒重来”式的全新设计,但绝对可以说它足够“豪气堆料”,体现了如今AMD在CPU领域高歌猛进的市场态势。
首先在前端部分,Zen5采用了双管线预取设计,同时搭配了改进的分支预测算法。官方的说法是它既降低了预测延迟、提高了准确度,还增大的吞吐量。与此同时,它还有两组4宽度的指令解码单元,以及与之搭配的8宽度Dispatch单元。
而在执行部分,单个Zen5核心拥有6个ALU(算术逻辑单元)、8宽度的整数重命名单元,以及更大的ALU调度器和更大的执行窗口。
除此之外,相比于此前Zen4所采用、双256bit的向量浮点单元设计,Zen5终于拥有了真正完整512bit字长的向量加速器。这就意味着它在运行AVX-512指令集时,不再需要有“拆解”指令集的步骤,可显著提升某些高负载游戏、多媒体编辑,以及AI计算的性能。
顺带一提,虽然AVX-512是Intel率先提出的标准,但由于众所周知的大小核架构设计问题,家用的酷睿处理器至少要到下下代才有可能重新具备512bit向量指令集。因此对于有重负载多媒体需求的用户来说,Zen5这一次可能会有更大的优势。
最后在核内缓存设计上,每一颗Zen5内核拥有32KB L1指令缓存、48KB L1数据缓存,以及1MB的L2缓存。如果将它与Zen4对比就会发现,新架构的L1数据缓存增大了50%。此外AMD方面还表示,L1缓存到CPU浮点单元的峰值带宽现在也增大了一倍。不过从Zen5并没有大幅增加L2缓存大小这一点来看,AMD到底还是考量了产品的成本,并没有因为用上了台积电N4X制程就过于“放飞”。
在执行单元、缓存设计、预取算法的多重加持下,AMD Zen5的平均IPC提升大约是16%,但如果是在机器学习、AES解密等重数学加速场景下,那么其架构进步幅度则可达到30%以上。考虑到如今还没有任何一家推出内置NPU的桌面CPU产品,AMD在Zen5的CPU架构里强调机器学习性能,自然是相当有针对性的一种设计。
RDNA3.5 GPU:官方说改进是为了效率,但可能还有伏笔
接下来,AMD方面较为详细地解析了他们RDNA3.5图形架构的设计。其与Zen5、Zen5c内核,以及XDNA2 NPU一起,被集成到了AMD的最新一代锐龙AI移动平台里。
或许正因如此,新的RDNA3.5架构从一开始就考虑到了能效比以及它们相互之间的“协同”因素。与目前大家更熟悉、用在AMD独显上的RDNA3.0相比,其客观上也存在着一些有趣的变化。
首先,RDNA3.5拥有两倍于RDNA3的纹理采样率,同时将着色器内部的插值和比较操作的速率也进行了翻倍。虽然AMD方面宣称这些改进旨在增强核显的能效比,但熟悉AMD GPU的朋友估计也能看出来,这些改进的本质普遍在于提高RDNA3.5的“传统光栅性能”,也就是非光追、非AI超分时的3D画面生成速度。而这,恰恰是目前AMD GPU的长处。
其次,RDNA3.5架构还改善了内存控制器,它使用了更好的数据压缩算法,降低了显存负载。AMD称其改善了新GPU的“每比特性能”,说得更通俗一点,这其实也可以理解为新的GPU降低了对PC内存频率的相对需求。
请注意,这个降低是“相对”的。因为大家都知道,新一代的Radeon 890M核显拥有更大规模的计算阵列,如果不改善内存效率,那么从理论上来说,它就会需要等比例地提升内存频率才能“喂饱”这些增加的GPU核心,而这显然会大幅增加产品的成本。所以不管是为了让锐龙平台的笔记本电脑更亲民,还是为了让传说中的超大核显APU未来能够真正成立,改善GPU的内存效率都是极其必要的一步。
XDNA2 NPU:不只有最高算力,更在精度上格外领先
说实在的,如果熟悉AMD现在的AI产品线,你可能会觉得有一点困惑。因为对于当前的AMD来说,他们实际上相当于有两条不同来源、不同架构,而且完全不共享软件生态的AI加速器设计。其中一套源自显卡团队,被用于那些CDNA架构的计算卡,以及被集成在RDNA3.0架构的独显内部。
而另外一套,则是源自被AMD收购的赛灵思团队,他们的XDNA加速器有自己独立的产品线。与此同时,从锐龙7000系开始,XDNA也被集成进了AMD的移动APU,作为其中的“NPU”使用。
好在随着此前锐龙7000系、8000系两代移动平台在市场上大获成功,AMD如今似乎也逐步坚定了他们在家用AI解决方案上的选择。在最新的锐龙AI 300系列里,我们就见到了新的XDNA2架构设计。
与XDNA初代相比,新的集成NPU将内部的AI引擎切片数量从20个增加到了32个,同时将每个切片的MACs(乘加累计操作)性能提升为原来的两倍,还将NPU的内置缓存增大了60%。
从结论来说,XDNA2在目前版本的锐龙AI 300系CPU里,可提供50TOPs的独立AI算力。而这,就使得它成为了当前已经发布、性能最强的PC集成NPU方案。
而且AMD这套NPU还有个很特别的地方,那就是它支持“Block FP16”浮点格式,并且在该格式下依然可以跑到50TOPs的满速。相比之下,其他家的NPU多半只能用INT8格式才能“跑满”,如果运行FP16的AI计算、速度就会减半。
这也就是为什么AMD会格外强调,XDNA2 FP16 AI计算速度的原因。毕竟大家都知道,对于现在的AI推理项目来说,FP16确实能够带来比INT8高得多的精度优势。所以单纯从技术层面来说,AMD的这套XDNA2 NPU无论在理论速度、还是理论精度上,确实都能将竞争对手的同代NPU“压着打”。
结语:市场表现加速进击,AMD的路正在越走越宽
以上基本就是AMD在此次Tech Day期间,所公布新品架构上的一些细节信息了,不知道大家看之后有什么感想呢?
在我们三易生活看来,纵观AMD此次新品,最大的感受就是过去几年里所取得的市场成功,确实给了AMD更大的底气,使得他们“敢于”使用一些更激进的设计,去追求CPU更高的多媒体吞吐率、GPU更大的核显规格,以及NPU上行业领先的计算理念。
与此同时,更加可贵的一点在于,AMD始终没有放弃产品设计上对于“性价比”、特别是对于家用和游戏用户的重视。这一点,从Zen5 CPU不盲目堆缓存容量,以及RDNA3.5优先增强光栅性能、而不是再去增强AI特性,其实就都能看得非常清楚。
当然,有些朋友可能还是会有疑虑,他们会觉得这种讨好游戏玩家的设计不够有“噱头”,面对竞争对手以“创意”、“专业向”为主的宣传方式,AMD在市场宣传层面或许会吃亏。
但很显然,PC厂商就看得很清楚。一方面,作为AMD此次活动的嘉宾之一,华硕方面就在现场发布了旗下包括游戏本、创意工作站、轻薄本在内的多个产品线的新品,从而有力地证明了锐龙移动平台如今的“全能型”。
另一方面,根据AMD官方公布的数据显示,从初代锐龙AI平台到如今的第三代方案,对应市面上的产品款式数量不断增加,而且几乎呈现出持续翻倍的态势。比起各种PPT上的胜负,由产品数量所直接反映出的市场信心,很明显才是AMD如今真正的底气所在。
况且从AMD此次所公布的信息来看,显然不能排除它背后还有一些“伏笔”。比如前面已经提到、曝光许久的超大型RDNA3.5核显设计,又比如未来AMD独显产品线与XDNA NPU的融合。可以说在经过了5000系到8000系的不断探索之后,AMD如今的产品规划、技术路线开始重新呈现出更加成熟的特征。而这也让外界对于他们的未来,确实将会抱有更多信心与期待。