ROCm加持, RX 7900 XT 本地AI出图效率暴增!

电脑报2024-04-07 12:15:46  96

今年可以算得上是AIGC应用爆发之年了,特别是使用Stable Diffusion本地出图,几乎成了玩家必备AI应用。AMD旗下采用RDNA3架构的RX 7000系列显卡不但拥有出色的AI算力,其中的RX 7900系列还配备了超大的显存,特别适合用来AI出图。当然,可能多数玩家还是在Windows系统下以DirectML模式驱动RX 7000显卡出图,实际上,如果用上AMD ROCm模式,RX 7000显卡在Stable Diffusion中的出图效率还会大幅提升。这里我们就用备受玩家追捧的大显存高性价比出图利器RX 7900 XT为大家实战体验一下ROCm的威力。

AMD ROCm是什么?

总的来说,AMD ROCm(Radeon Open Computing platforM:Radeon开放计算平台)是一个开放式软件堆栈,包含了多种编程模型、工具、编译器、库和运行时,用于开发面向AMD GPU的AI与HPC解决方案。AMD ROCm 软件提供了针对各种 AI 工作负载的优化方案,适用于大型语言模型 (LLM)、图像/视频检测与识别、生命科学与药物研发、自动驾驶、机器人等领域,并支持更广泛的包括开放式框架、模型和工具在内的 AI 软件生态系统。简单点说,ROCm就是AMD的一个软件平台,用来支持Radeon GPU计算。在使用Radeon GPU的时候,编程模型用的是HIP或者OpenCL,而运行环境则是ROCm。既然是AMD自己专为Radeon GPU打造的软件平台,那么ROCm的效率比通用型的DirectML高也是理所当然了,所以用RX 7000显卡出图的朋友,我们强烈推荐使用ROCm模式。ROCm For Windows早在去年就已经推出,目前支持设备的型号在不断增加中(从上面的图中可以看到RX 6800及以上都是完全支持HIP SDK和运行时的),不过如果玩家想要最成熟的体验,可以在基于Linux的系统下使用ROCm。

RDNA3架构加上20GB超大显存,RX 7900 XT特别适合AIGC

作为RX 7000系列的次旗舰,RX 7900 XT的定位称得上是性价比十分突出的高端甜品,尤其在AIGC方面更是具备极高的竞争力。RX 7900 XT采用RDNA3架构,总面积与上代RX 6950 XT相同,但晶体管达到上代的2.15倍以上,因此能效表现相对上代RDNA2大幅提升。此外,RDNA3架构相对上代新增了AI加速器单元,无限缓存也升级到了第二代,等效显存带宽是RX 6950 XT的1.67倍,由此也带来了更为强悍的数据吞吐能力。

RX 7900 XT之所以被称为AI利器,一方面是它拥有强悍的算力,单精度峰值性能高达52 TFLOPS,半精度峰值性能高达103 TFLOPS,分别是RX 6950 XT的2.2倍和2.18,算力直接决定了AI计算的速度,而这方面RX 7900 XT无疑是一流水平;另一方面就是它拥有320 bit位宽、容量高达20 GB的GDDR6显存,这对于AI出图来讲就意味着高分辨率出图适应性更好。

此外,目前高端显卡市场中,16GB显存的RTX 4080售价接近八千元,再往上就是天价的RTX 4090,基本上和性价比已经没什么关系。相比之下,拥有20GB超大显存的RX 7900 XT仅需5000元出头就显得性价比爆棚,加上ROCm更是能让出图效率暴增,特别适合追求高效出图的玩家。

接下来就让我们一起来看看RX 7900 XT在ROCm加持下、在Stable Diffusion中的出图表现吧。

实战测试:RX 7900 XT + ROCm,出图效率起飞

测试平台

处理器:AMD锐龙9 7900X

内存:金士顿Fury DDR5 6000 16GB×2

主板:华硕TUF GAMING B650M-PLUS WIFI 重炮手

显卡:AMD Radeon RX 7900 XT

硬盘:WD_BLACK SN850X 2TB

电源:ROG雷神1200W

操作系统:Ubuntu 22.04.3 LTS

▲安装Ubuntu 22.04.3 LTS操作系统与Stable Diffusion Webui

▲可以看到ROCm模组的信息

▲生成5张图耗时13.4秒

打开Stable Diffusion之后,我们设置迭代步数20、Euler a采样、512×512分辨率、CFG为7,模型选用麦橘唯美人物模型V1.0来进行文生图。从测试来看,RX 7900 XT完成的时间为13.4秒,相比之前在Windows 11系统+DirectML模式下同样参数设置的22秒来讲速度暴增了63%之多。

▲生成10张图耗时26.9秒

让我们再进一步增加计算压力,一次生成10张图,此时RX 7900 XT也是全力输出,完成的时间为26.9秒,相比Windows 11下DirectML模式的47秒更是快了75%,可见出图数量越多,ROCm相对于DirectML的效率优势也越明显。

▲出图的时候启用细节修复来修复脸部,5张图的完成时间为20.3秒

▲ROCm支持下,即便是开启细节修复,出图速度也比DirectML模式快近10%

为了进一步提升人物图片脸部的出图效果,我们在出图的时候勾选细节修复,选择修复模型为mediapipe_face_full,此时完成5张图的时间为20.3秒,也比Windows 11的DirectML模式不开细节修复快了接近10%,而且画面效果更好,脸部没有BUG。

由此可见,在ROCm的加持之下,RX 7900 XT在Stable Diffusion中的出图效率确实得到了极大的提升,而RX 7900 XT超高的出图速度也让我们十分惊喜。值得一提的是,目前Windows版的ROCm其实已经实装了,并且对RX 7000提供了完备的支持,因此Windows平台的RX 7000用户也可以享受到这一特性了。综上所述,如果你要选择一块具备20GB超大显存的本地AI出图高性价比利器,那么RX 7900 XT确实是当下特备值得优先选择的产品。

总结:AIGC大显存高效利器,RX 7900 XT性价比无敌手

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/145491.html
0
最新回复(0)