AMD的GPU跑AI模型终于Yes了? PK英伟达H100不带怕的

新浪财经2024-09-04 22:23:00 127

机器之心报道

都很贵。

AMDvs英伟达绝对算是一个长盛不衰的话题——从玩游戏用哪家强到如今训练AI哪个更高效？原因也很简单：它们的GPU产品存在直接竞争关系。

当然，答案通常都偏向于英伟达，尤其是在AI算力方面，正如前些天李沐在上海交大演讲时谈到的那样：「算力这块，你可以用别的芯片，但是这些芯片用来做推理还OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。」

但基于实证的对比研究却往往又会给出不一样的答案，比如在同一个演讲中，李沐还提到了这两家GPU的内存情况，对此他表示：「在这一块，虽然英伟达是领先者，但其实英伟达是不如AMD的，甚至不如Google的TPU。」

实际上，不少业内人士都表达过对AMD占据更大市场份额的信心，比如Transformer作者及生成式AI初创公司Cohere创始人之一艾丹?戈麦斯（AidanGomez）前些天说：「我认为AMD和Tranium这些平台很快也将做好真正进入主流市场的准备。」

近日，专注计算硬件的科技媒体TheInformation发布了一份对比评测报告，声称是首个直接对比AMD和英伟达AI集群的基准评测。该报告的数据来自MLCommons，这是一个由供应商主导的评测机构。

他们构建了一套MLPerfAI训练和推理基准。AMDInstinct「Antares」MI300XGPU以及英伟达的「Hopper」H100和H200和「Blackwell」B200GPU都得到了评估。TheInformation对比了这些评估数据。

结果表明：在AI推理基准上，MI300XGPU绝对能比肩H100GPU，而根据TheInformation对GPU成本及系统总成本的估计，说MI300XGPU能媲美H100和H200GPU也不为过。但是，也需要说明这些测试存在局限：仅使用了一种模型，即来自Meta的Llama270B。希望未来能看到这些测试中使用更多不同的AI模型。

对MI300X及AMD未来的GPU来说，这个结果很是不错。

但到今年年底时，考虑到英伟达BlackwellB100和B200GPU的预期价格，似乎英伟达将与AMDMI300X加速器开始比拼性价比。另外，也许AMD会在今年晚些时候推出MI325XGPU。

重点关注推理

AMD的数据直到上周才发布。业内有传言说AMD签了一些大订单，会把MI300X出售给超大规模计算公司和云构建商，以支撑他们的推理工作负载。无怪乎AMD直到上周才发布MLPerfInferencev4.1测试结果。

对MLPerf推理结果的分析表明，在使用Llama270B模型执行推理任务时，MI300X在性能和成本上确实能与H100比肩。但和H200相比就差点了，毕竟H200有更大的HBM内存（141GB）和更高的带宽。如果Blackwell的定价符合预期，那么今年晚些时候推出的MI325为了具备竞争力，就必须得拥有更大的内存、更高的带宽和更激进的价格才行。

下面是最新发布的MLPerf基准评测结果：

英伟达的MLPerf基准评测结果来自英伟达自身，其中也包括使用Llama270B模型在单台BlackwellB200SXM上的结果，详情可访问这篇博客：https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

Theinformation提取了所有英伟达的结果，并新增了JuniperNetworks在包含2个和4个节点的HGXH100集群上得到的结果（总共8和16台H100）。

AMD在配备一对当前的「Genoa」Epyc9004系列处理器和八台AntaresMI300XGPU的服务器节点中测试了标准通用基板（UBB），还测试了一台将GenoaCPU换成即将推出的「Turin」Epyc9005系列CPU的机器，该系列CPU预计将在下个月左右推出。

AMD还向TheNextPlatform提供了一张图表，其中展示了在Genoa盒子上测试一台MI300XGPU的性能，这可以显示节点内GPU的扩展性能：

让我们先看性能，然后再看性价比。

对于性能，我们想知道，在执行Llama2推理时，AMD和英伟达设备所具备的潜在峰值浮点性能有多少会被实际用于生成token。但并没有这方面的具体数据，因为GPU利用率和内存利用率不在基准测试中。不过我们可以根据已有数据进行推断。

AMDGPU配置了PyTorch2.3.0框架和AMD的ROCm6.1.2软件库和runtimes，它类似于英伟达的CUDA堆栈。在MI300X的张量核心上的峰值FP16性能为1307.4TFlops，但这是在服务器模式下运行的（也就是使用在现实世界中看到的一种随机查询），可知在运行Llama270B模型时，单台MI300X每秒生成2530.7个token。因此，Llama2性能与假设峰值Flops之比为1.94。当扩展到8台MI300X设备并换用更高速的CPU，则这一比值会略微升至2.01到2.11。

我们知道，H100GPU的HBM内存仅有80GB，启动带宽也较低，这是因为缺少HBM3和HBM3E内存导致的内存配置不足。MI300X也是类似。大家都在拉低GPU的内存配置，这样不仅是为了多卖些设备，而且也因为在GPU芯片附近堆叠HBM的难度很大，并且还有封装制造工艺的问题。

再看看英伟达测试的H100系统，每秒服务器token与峰值FP16Flops的比值是2.6或2.73，这比AMD的更好，这可能要归结于软件调整。针对H100，CUDA堆栈和TensorRT推理引擎进行了大量调整，现在你明白为什么AMD如此渴望收购人工智能咨询公司SiloAI了吧？这笔交易几周前刚刚完成。

由于切换到了HBM3E，H200的HBM内存将大幅提升至141GB，带宽也将从3.35TB/s提升至4.8TB/s。于是这个比值将增至4.25，而英伟达自己的基准测试表明，只需在完全相同的HopperGH100GPU上添加内存容量和带宽，AI工作负载就能提升1.6至1.9倍。

MI300X应该具有什么样的内存容量和带宽才能平衡其在推理（可能还有训练）工作负载方面的浮点性能呢？这一点很难估计。但TheInformation给出了一个直觉估计：MI325X将具有6TB/s的带宽（MI300为5.3TB/s）和288GB的HBM3E（HBM3为192GB）——这是朝着正确方向迈出的一大步。另外，MI325X的FP16浮点性能似乎还是1.31Pflops。

不过明年的MI350的浮点性能可能会大幅提升，据信其会有新迭代的CDNA架构：CDNA4。其不同于AntaresMI300A、MI300X和MI325X中使用的CDNA3架构。MI350将转向台积电的3纳米工艺，并增加FP6和FP4数据类型。据推测，将有一个全GPU的MI350X版本，也许还有一个带有TurinCPU核心的MI350A版本。

你可能倾向于相信AMDMI300X和英伟达H100之间的性能差异是因为：一致性互连将GPU绑定到其各自UBB和HGX板上的共享内存复合体中。AMD机器上的是InfinityFabric，而英伟达机器上的是NVSwitch。InfinityFabric的每台GPU的双向带宽为128GB/s，而NVLink4端口和NVSwitch3交换机的带宽为900GB/s，因此英伟达机器在内存一致性节点结构上的带宽高7倍。

这可能是Llama2工作负载性能差异的一部分原因，但TheInformation认为不是。原因如下。

单台MI300X的峰值性能为1.31Pflops，比H100或H200的989.5Tflops（FP16精度）高出32.1%，且没有稀疏矩阵重新调整，吞吐量翻倍。MI300X的内存是H100的2.4倍，但Llama2推理工作性能仅比H100多7%，并且推理负载仅为H200的60%。根据英伟达进行的测试，相比于配备180GB内存的BlackwellB200，该设备的工作性能仅为其23.5%。

据信B200的内存也会受限，因此根据6月份发布的英伟达路线图，B200和B100（可能）将在2025年进行内存升级，容量可能会提升到272GB左右。H200的内存升级会领先于MI300X，后者的升级将在今年晚些时候体现在MI32X上，并会在内存方面领先B200BlackwellUltra六到九个月。

TheInformation表示：「如果我们要买GPU，我们会等HopperUltra(H200)、BlackwellUltra(B200+)和AntaresUltra(MI325X)。拥有更多HBM的数据中心GPU更划算。」

当然，你也可以等，用你现有的GPU参加这场生成式AI大战。

当然，上面的数据围绕着推理，至于AI训练方面的数据，AMD可能会在今年秋季发布。

实际应用的性价比

MI300X与英伟达的Hopper和Blackwell的性价比如何呢？

今年早些时候，英伟达联合创始人兼CEO黄仁勋在Blackwell发布后表示：这些设备的价格将在3.5至4万美元之间。HopperGPU的价格可能为2.25万美元，具体取决于配置。黄仁勋在2023年时曾表示，一套配置完成的HGXH100系统板的价格售价20万美元。至于H200，如果单独购买，价格应该是3万美元。MI300X的售价大概是2万美元，但这基本基于猜测。具体还要看消费者和市场情况。

当然，大量购买应该还有折扣，正如黄仁勋喜欢说的那样：「买得越多，省得越多。」（TheMoreYouBuy,TheMoreYouSave）

粗略估计，将这些GPU变成服务器（两台CPU、大量主内存、网卡和一些闪存）的成本约为15万美元，并且可以插入英伟达的HGX板或AMD的UBB板来构建八路机器。考虑到之前计算的单台GPU的性能，于是这里便以这一成本的八分之一进行计算。

综合这些成本，可以看到MI300X与H100一样非常烧钱。

我们已经知道，对于Llama270B推理任务，H100系统中平均每台GPU每秒可输出2700个token，这比MI300X好7%。H200的内存是141GB，是原来的两倍多，而其推理性能提升了56%，但GPU的价格仅上涨了33%，因此其GPU和系统层面的性价比都得到了提升。

如果B200的价格如黄仁勋所说的那样为4万美元，那么在Llama270B测试中，其在GPU层面上每单位推理的成本将降低近一半，在系统层面上则会略多于一半。

考虑到Blackwell的短缺以及希望在给定空间和给定热范围内容纳更多AI计算的需求，因此也可以推断英伟达可能为每台B200GPU定价5万美元——很多人都这样预计。

当然，具体如何，还要看今年晚些时候AMDMI325的定价以及产能。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/1166949.html

随机主题

美专家: 中国军事实力世界第二! 与俄罗斯谁常规武器更胜一筹?我国发布全球首个开源大规模片上互联网络 IP“温榆河”我们的广义货币, 为什么是美国的2倍?重庆开州区: 文峰街道开展“护苗· 绿书签”文艺演出活动法国公开和美国对着干，马克龙真的醒悟了 OPPO Find X8或首发天玑9400芯片, 配备1.5K小尺寸直屏王红权星近三月直播13场销售额超2500万：卖每瓶3000元的洗发水你不知道的冷知识——荷兰篇股价跌至1.7元, 连22年现金分红+股息率达4%, 国资买进前十股东美股三大指数集体收跌贵金属板块跌幅居前庆余年2唯一输家: 最牛星二代跌下神坛, 演技尴尬, 全程被吊打为什么很多人讨厌国漫的超前点播, 但又希望快点出, 原因有两个到了一台仅上牌一天的丰田凌放舒淇宝格丽之夜疑似被日本女星针对…1960年, 邓华转业地方, 一怒之下染黑军装怒吼: 从此永远脱离部队狼派磁白轴上手体验米莱重申“将阿根廷美元化”承诺: 阿根廷央行将会停印比索, 让美元取而代之郭德纲讽刺同行有多狠？相声没落全因同行太差劲低配渡江芙蓉枪! 平民玩家的不二选择!张作霖做事有多狠？不仅崩掉自己小舅子，还敢集合部队和日本开战沪深交易所出手打击“神预言”相关账户被限制交易15日

最新回复(0)