英特尔LunarLake架构解析: 单核暴增、Xe2首秀

三易生活2024-06-05 08:29:39 41

2024年6月初，英特尔方面在COMPUTEX展会期间正式公布了传闻许久的LunarLake平台具体信息。

作为英特尔的下一代低功耗笔记本电脑计算平台，LunarLake的定位毫无疑问是接替现在的MeteorLake。但从它的具体设计上来说，LunarLake又并非简单地基于本世代进行的规格增强，因为它的变化实在是太大、甚至可以说是有点“颠覆”。

那么，这一世代的英特尔移动平台究竟是如何设计，它又会带来产品形态、技术路线上怎样的影响呢？接下来，就让我们一起来看看刚刚公布的LunarLake架构相关信息吧。

变化综述：4+4CPU、集成内存、NPU性能暴增

首先，我们简述一下LunarLake的几大特征。

在CPU方面，LunarLake采用了最高4P+4E的设计。不得不说这其实挺让人意外，因为上一代的MeteorLake最多可是拥有6P+8E+2LPE的16核CPU，因此英特尔如何用一半的核心数量实现性能提升，显然会是这次的重点。

在GPU方面，LunarLake一如我们此前猜测的那样，集成了全新的Xe2架构核显。它除了更大的GPU规格之外，一个很显著的变化，就是重新加入了之前在“核显版”ARC上被删掉的XMX矩阵计算单元。

与此同时，LunarLake也成为英特尔历史上第二款集成内存的CPU设计。之所以说是第二款，是因为在之前的13代酷睿平台上，已经有了i9-13905H这款带有实验性质、采用“超短内存布线”设计的方案存在。当时它就已经证明，将内存直接集成在CPU基板上，可以很容易地换来比常规内存或者主板焊接内存高得多的频率（因为布线更短、干扰就更少，有利于使用更高频的颗粒）。LunarLake显然便是这种设计思路的“推广化”应用。

最后，LunarLake的内置NPU规格也从前代的10TOPs，一跃提升到了最高48TOPs。而且它的GPU现在也具备高达67TOPs的AI性能，再加上5TOPs算力的CPU，总计便能达到120TOPs的“平台AI算力”。

很显然，LunarLake明显是一款迎合当下“AI PC”潮流的处理器设计。但比起AI特性，它的其他一些部分可能更加值得关注。

“超宽型”CPU设计，小核已能达到过去大核得性能

LunarLake“凭什么”敢于用4+4核的CPU设计？其中一个很大的原因，就是它的CPU架构迎来了巨大改动。特别是其中的E核（能效核、小核），性能相比前代更是提升了2-4倍之多。所以哪怕只有4核心，实际性能已经未必输给前代的8E配置了。与此同时，它的P核这一次改动也不小。

首先是E核。LunarLake此次采用了全新的E核设计，它取消了前代MeteorLake里位于低功耗岛里面的LPE（超低功耗能效）核心，因此相当于“回归”了从12代酷睿开始的“P+E”混合架构。这也就意味着LunarLake的E核这一次既要用更少的核心数量实现足够高的峰值性能，又要能够在低频率运行时做到极低的功耗，以取代之前LPE核心的功用。

那么它是怎么做到的呢？简单来说，这源自新一代的“Skymont”架构。而它的变化用一个字其实就可以形容，那就是“宽”。

与前代的E核相比，Skymont架构的解码单元采用了3*3的9宽度设计，比前代增加了足足50%。

同时，它的乱序执行引擎也大幅加宽。其分配宽度从6发射改成了8发射，指令退役单元从8宽度倍增到16宽度，乱序执行窗口的重定序缓冲（ROB）容量从256大幅增至416个指令。除此之外，更深的指令队列长度、更大的加载和存储缓冲区，以及多达26个预取接口，都使得Skymont架构在各种意义上来说的核心规模，都已经超过了名称相似的经典架构Skylake。

这里还有个很有意思的的伏笔，那就是Skymont架构这次内置了四组128bit的浮点和SIMD矢量单元。嗯，四组128bit，相信大家懂得都懂，看来AVX512、或者更准确地来说AVX10.1指令集降临消费级E核的日子，或许是不远了。

根据英特尔方面公布的相关数据来看，Skymont架构E核现在的单核整数IPC相当于前代LPE节能核138%的水平，浮点性能则是168%。

算上频率增长带来的性能提升之后，全新的E核现在每一个核心已经可以顶过去2个低功耗核的水准，甚至是在低功耗范围上胜过13代酷睿的Raptor Cove大核。换句话说，LunarLake现在的每一颗能效核，都有着比过去“性能核”还要高的同频性能、同时还能兼顾到“LPE”级别功用的超低功耗。而这，便是它敢于只设计四个E核的底气了。

更大更强的性能核，架构设计上还有伏笔

讲完了LunarLake的能效核，接下来我们来说说它的性能核，也就是俗称的P核、大核。

与能效核一样，英特尔此次也完全重新设计了新处理器的性能核架构，现在它使用的是名为“Lion Cove”的新架构。

与Skymont一样，更宽更大的并发处理能力也是Lion Cove架构的主要改进思路。比如它的前端部分将预测区块增大了8倍之多，拥有更宽的预取单元，同时还增加了微操作的缓冲容量。

而在执行单元部分，Lion Cove将分配/重命名单元的宽度从6增加到8个，指令退役单元的宽度从8个增加到12个，指令窗口深度从512增加到576，同时执行接口也从12个增加到18个。

与此同时，Lion Cove架构现在拥有更大规模的整数执行设计，它的算数逻辑单元从5个增加到6个，64*64乘法单元从1个增加到3个。

而在浮点部分，Lion Cove的256bit SIMD单元也从3个增加到了4个，浮点除法器数量翻倍，同时还降低了乘加运算的指令延迟。此外值得注意的是，大家都知道隔壁AMD是用两个256bit SIMD单元去实现的AVX512指令集兼容，而英特尔这次将Lion Cove内部的256bit SIMD单元数量增加为4组，也算是再次暗示了未来512bit向量指令集在消费级CPU上回归的可能。

或许是为了更好地应对更宽、吞吐量更大的架构设计，英特尔还首次在Lion Cove架构里引入了大容量的L0缓存。当然，其实说他们是增加了新的“L1.5”缓存或许更准确。因为从本质上来说，现代CPU其实都会带有很小的L0（通常只有几KB、甚至不到1KB）用于存储微操作指令。而从Lion Cove与前代Redwood Cove（注：MeteorLake的性能核）的对比中就不难发现，新的缓存实际上相当于在L1和L2中间加入了新的缓冲层，以缓解更大、但循环周期更长的L2对延迟造成的影响。

从官方公布的数据来看，Lion Cove性能核架构的IPC比前代提升大约在14%，而且尤其在低频部分的优势会更加明显、接近20%。

放弃超线程，但多线程能效反而得以大增

除了更宽的架构设计，LunarLake的CPU部分这次还有一个很大的变化，那就是取消了性能核的超线程功能。

需要注意的是，根据英特尔方面的说法，取消超线程并不一定是架构层面的硬件不支持，主要是出于平台能效比做的决定。因为他们发现，对于如今的“性能核”来说，增加超线程功能可以提供大约30%的多线程增益，但同时会多消耗20%的功耗。

但是由于LunarLake的能效核性能比过去一下子强了太多，这就使得性能核的超线程单元相比之下反而就很“不划算”了。因为现在新处理器的能效核与性能核之间的差距，已经没有过去那么大，所以他们的办法就是直接用能效核去承担更多的多线程运算。

与此同时，LunarLake处理器现在拥有大幅改进的“线程调度器”和电源管理特性。它的小核现在具备单独的电源管理单元，同时大核的主频调节步进不再是过去的100MHz、而是细化为可以按照16.67MHz为一个步进、进行频率的自动调整。

这样一来，一方面操作系统（目前主要是Windows 11的最新版本）可以更加清楚地“知道”，什么类型的程序应该被放在什么种类的核心上运行，从而避免过去性能核动不动被低功耗程序所激活，白白浪费功耗的情况出现。

另一方面，当笔记本电脑处于受限功耗场景（比如电池模式、或者低噪声散热模式）时，新的处理器可以尽可能地根据实时性能需求更细密地调整主频，从而解决了过去粗放式的睿频机制所导致，低功耗模式下主频太低、性能不够用的问题。

核显补齐短板，内存设计杜绝“简配”

最后，我们来聊聊LunarLake这一代的核显部分设计。

实际上，LunarLake的核显会加回XMX单元这件事，我们三易生活很早之前就已经猜到。因为对现代的Intel ARC独显来说，XMX单元不仅是重要的AI计算资源，而且对于游戏内的AI超分、AI HDR等最新的画面增强功能，也会提供很大的帮助。

不过在具体的架构上，LunarLake这次集成的Xe2 GPU架构又绝非是简单地“加回XMX单元”。因为除此之外，它还大幅提升了内部渲染切片的吞吐率，将纹理预取和网格遮罩性能都增加到了原来的3倍。

与此同时，新的GPU内核也同样采用了“更大更宽”的改进思路。其采样吞吐量、渲染吞吐量全部翻倍，像素色彩缓冲增大了33%。同时英特尔还全面重新设计了Xe2的光追引擎，大幅提升了光追的计算效率，降低了开启光追之后的帧率损失。

根据官方公布的数据显示，与前代Xe架构的ARC核显相比，LunarLake的Xe2架构在单时钟周期下的光追性能达到了前代的1.6倍，采样反馈性能为前代2.7倍，网格渲染性能可达4倍以上。同时得益于XMX单元的引入，在多个AI计算场景下，Xe2的同频性能都能达到前代的4倍。

这里特别值得一提的是，Xe2架构增加了对于Excute Indirect功能的硬件支持。而这则是最新版Direct 12里引入的技术特性，它完全改变了GPU的工作方式，让GPU不需要再等待CPU的指令，可以自主地“安排”高并发的draw和dispatch任务。

根据实测数据显示，与过去依赖CPU进行“指挥”的GPU架构相比，Xe2的这一改进使得它在新版系统下的dispatch速度提升了7倍、draw速度提升了12.5倍，毫无疑问堪称是革命性的增强。

当然大家都知道，要想充分地发挥核显性能，足够高带宽的内存是必须的。在之前的MeteorLake上，英特尔虽然提供了对LPDDR5X-7500内存的支持，但并未强制OEM厂商使用这种高频内存。因此也给了部分品牌“节约成本”，换用普通DDR5-5600内存的可能性。

但到了LunarLake这一代，情况就完全改变了。因为新处理器直接采用了集成内存的设计，可以将16GB或32GB的LPDDR5X-8533内存集成到CPU基板上。

虽然可以说这样的设计也就意味着LunarLake不可能再去适配更大的内存，不过没关系，考虑到LunarLake的定位，它对应的同世代“高性能向”移动平台，注定会是同样在今年登场的“箭湖”变体。而后者采用了与LunarLake同宗同源的CPU核心设计，并且几乎一定可以支持更大容量的内存配置，以满足那些移动工作站，以及下一代游戏本的需求。

总结：主打低功耗，但也带来了新的希望

总的来说，LunarLake可以说是英特尔这几年以来变化最大的一次处理器设计。如果按照代次间变化程度的大小去评判，那么它的“新意”甚至可能比11代酷睿到12代酷睿的变化还要更大一些。

当然不能否认的是，无论是最大4P+4E的CPU布局、最高32GB的片上内存设计，还是其所采用的集成式WiFi新方案，这些都表明LunarLake注定会是一款更注重“低功耗”、主打超轻薄笔记本电脑、x86掌机等等设备的处理器设计。

官方已经明示，新架构同样会被用于桌面端新品

但这就会带来一个问题，那就是LunarLake很可能并不能完全覆盖现在MeteorLake的市场区间。因为后者毕竟有6P+8E+2LPE的高功耗版本被用在一些游戏本、甚至是工作站级别的产品中，而LunarLake就未必可以满足它们的配置需求。

不过英特尔方面在发布LunarLake的过程中也多次提及，这次的CPU、GPU采用的都是可扩展的模块化架构。比如其Skymont E核，未来在高性能处理器上就必然还会有8核、16核，甚至是更多核心数量的版本，Lion Cove P核在更注重纯粹性能的“纯大核”处理器上，也完全可以加入超线程功能。

所以这实际上也就意味着，LunarLake的意义并不仅仅是一代新的超轻薄AI笔记本电脑芯片方案，它的许多基础架构将来都会被继承到英特尔新的高性能桌面CPU、高性能游戏本CPU、独立显卡，甚至是服务器和工作站产品线上。反过来说，这也代表着LunarLake很可能会是英特尔全新的软件优化、指令集优化生态和驱动适配服务的一个“新起点”。所以它“战未来”的潜力，或许比我们现在想象的还要更大一些。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/667084.html

随机主题

#墨西哥一场总统竞选活动舞台倒塌，已致5人死亡，约50人受伤 #事故 #意外巴以冲突将迎来大结局? 以防长总理没想到, 法国也在背后给了一刀特高压多条储备项目披露, 电网行业景气度有望持续!王思聪骂汪峰被吐槽五十步笑百步, 都不长情, 婚恋失败也没损失什么时候买摩托车最划算?我的视频就是为了这个??????长城回应4s店起火，理性看待，拒绝天团式解说高铁为什么能转弯? 看完一清二楚 “涌潮”之动影未来, 浙传这场毕业作品展面向社会公开亮相有了“福建舰”后，中国还需要几艘航母，才能战胜美国海军？原神为救流水, 动画攻势来了, 调香师和5.0纳塔希巴拉克建模首爆国内最大的硝盐储能新材料项目开工中国最长跨市“地铁”要来了梦幻西游：老王光环队开启牟利模式，1小时竟能刷这么多？真强！1950年毛岸英牺牲, 9年后罗瑞卿密电任荣: 主席有一项任务交给你 1960年, 邓华转业地方, 一怒之下染黑军装怒吼: 从此永远脱离部队 5月23号周四【足球推荐】今日三场胜平负, 比分精准预测!阿布扎比ADGM 2024年第一季度管理资产破纪录郭德纲讽刺同行有多狠？相声没落全因同行太差劲 5月24日地狱火重燃! 168碎片新选择, 廉颇黄金金牛座来袭 9C秘籍 | 让竞争对手认知超越你的10大方法

最新回复(1)

复来指2024-06-05 21:42
引用1楼
单核到7ghz了我在买一颗玩玩。