DPU市场新十字路口, 第三方不如自研?

科技确有核芯2024-04-15 09:38:58  68

电子发烧友网报道(文/周凯扬)在1G/10G的网络发展阶段,就已经有了标准网卡NIC投入应用,满足基本的数据包传输和接收工作。但随着云计算、虚拟化、机密计算等追求更高性能和更多功能的场景出现,传统的网卡已经无法满足大家的需求,CPU需要进一步减轻在网络、存储和安全负载,所以整个行业迈入了智能网卡阶段。

在SmartNIC智能网卡阶段,绝大多数产品都是基于FPGA打造的,但数据中心对IO性能要求越来越高,就连如今的这些网卡都需要参与更多的数据处理工作,也就慢慢转向人们口中常说的DPU,在高速的NIC数据路径上加入更多的处理器核心,靠软件定义网络。从2020年开始,DPU市场广受资本市场追捧,不少厂商都在这个阶段开启了收购,然后纷纷将产品更名为xPU。

从技术路线上,DPU也被分成了三种,一种是NIC与FPGA或CPU核心依靠PCIe等技术相连的混合解决方案,另一种是NIC和处理器核心高度集成在一个SoC内的方案,最后则是纯粹的高度并行化FPGA方案。

然而到了2024年,DPU市场明显达到了一个新的十字路口。首先DPU在超大规模云服务商的受欢迎程度越来越高,DPU也成了他们实现差异化最佳的方式之一。几大DPU厂商仍在推陈出新,但由于产量、封闭等原因,我们还是没能看到DPU以更大的规模在服务器上铺开,即便是在应用最多的超大规模云服务商的服务器上,其部署率也不过刚突破50%。

英伟达,DPU+SuperNIC

2019年3月,英伟达斥资69亿美元收购了Mellanox,也因此收获了其BlueField IP,并开始推行DPU的概念。GTC2020年上,英伟达很快就宣布了由他们打造的首个BlueField DPU卡BlueField-2,随后又公开了将Ampere架构的GPU集成在同一张卡上的BlueField-2X,利用GPU来提升其算力。

2021年,英伟达宣布了其最新的BlueField-3,集成了至多16个Arm A78核心,支持PCIe 5.0。但也就是从这一代开始,英伟达对于BlueField的定位出现了分支,也就是全新的SuperNIC。在英伟达的描述中SuperNIC又是一个用于提升网络性能的设备,与SmartNIC、DPU和IPU听起来好像也没有什么不同。但SuperNIC专门针对AI加速网络做了优化。

BlueField DPU路线图 / 英伟达

其中BlueField-3 DPU和过去的DPU产品定位保持一致,用于卸载和加速网络、存储、安全和管理功能。而BlueField-3 SuperNIC则主要用于网络活动更密集、需要大量并行运算的场景,也就是AI服务器/GPU服务器。

在拓展效率上,SuperNIC也要更强一些。比如在单个系统中,往往只能容纳1到2个BlueField-3 DPU,却可以容纳至多8个BlueField SuperNIC。而且单个系统中,GPU与SuperNIC 1:1的比例能够进一步提升AI服务器的效率。

今年即将推出的BlueField 4将进一步增加晶体管规模的同时,网络性能将用于支持800Gbps的数据中心网络。不仅如此,英伟达决心在其算力上实现巨大提升,从BlueField-3的1.5TOPS,直接暴涨到1000TOPS。

AMD,SmartNIC+Pensando

为了在服务器市场抢占更多的市场份额,我们可以看到AMD这几年不断地在CPU和GPU的设计上推陈出新,一点点地蚕食英特尔的市场份额,除此之外在SmartNIC和DPU领域,AMD也有所布局。

首先是SmartNIC,作为FPGA大厂,Xilinx在被AMD收购前已经有了优秀的Alveo系列SmartNIC产品阵容,尤其是在对延迟极为敏感的金融电子交易领域,AMD Alveo系列加速卡可谓一骑绝尘。以最新的Alveo UL3524为例,其收发延迟可以降低至3ns以下。

在DPU上,AMD也欲与英伟达、英特尔同台竞争。2022年4月,AMD宣布斥资19亿美元购买DPU厂商Pensando。Pensando作为市面为数不多的DPU厂商,主要优势在于极高的性能。从其路线图上来看,目前AMD已经实现了第一代DPU Capri(200G)和第二代Elba(400G)两大DPU的量产。AMD去年也发布了基于其P4 DPU管线结合16个Arm A72核心的Giglio,在第二代的Elba DPU的基础上对功耗和性能进行了进一步优化。

Pensando DPU路线图 / AMD

AMD预计在今年会发布第三代Pensando DPU,Salina。Salina将采用5nm工艺打造,实现两倍于上一代的性能,与英伟达的BlueField 4一样支持800G网络。而且AMD在Pensando DPU上做好了前向兼容,节省了应用程序开发所需的时间。

也正是在收购后不久,AMD就宣布其Pensando卡成为首批支持由戴尔、HPE和联想等头部服务器供应商提供的VMware vSphere 8的DPU解决方案之一,在vSphere 的支持下,服务器的CPU网络服务负载将进一步降低。除了服务器厂商之外,AMD Pensando也已经收获了Azure、IBM Cloud和Oracle Cloud等云服务客户。

在AMD去年Q1的财报会议上,AMD提到他们的Pensando DPU正在为微软的Azure提供加速连接服务。在支持的实例中,每个设备都部署了六个高性能的AMD Pensando DPU,所有用户程序的虚拟机都能访问这些DPU。微软的加速连接作为一项vNIC租赁业务,用户可以通过开启该服务来改善网络连接效率,相比传统的SmartNIC而言,每秒连接数提升超过10倍。

大量普及却“封闭”的DPU生态

要说市面上最为普及的DPU,那必定是亚马逊的AWS Nitro系列产品,尽管亚马逊并没有用到DPU这个名字。2016年,亚马逊收购了以色列公司Annapurna Labs,随后就在内部开启了最早的自研服务器芯片计划,Nitro。

截至今日,亚马逊自研的AWS Nitro芯片已经迭代了5个版本,AWS云服务上500多种实例都集成了AWS Nitro芯片。考虑到AWS全球第一大云服务商的规模,AWS Nitro可谓是名副其实的第一大DPU。

然而,AWS Nitro是并不对外出售的,属于AWS独占的自研产品。很明显,自研的DPU更能节省成本,并针对自己的服务器架构量体裁衣,这样一个大幅提高竞争力的产品,亚马逊自然不会选择对外出售。

采取同样策略的基本是云服务厂商,包括阿里巴巴和微软。阿里云的MoC卡/神龙芯片CIPU也是类似的产品,从2016年起,阿里巴巴就开始自研相关的虚拟化芯片了,直到2018年MoC卡的正式落地。2021年云栖大会,阿里云发布了第四代神龙架构,实现了网络和存储操作的完全硬件卸载,进一步增强存储IO和网络IO性能,并率先支持大规模的弹性RDMA加速。

去年年初,微软正式宣布收购DPU开发商Fungible。这家DPU厂商一度陷入市场竞争较大,但产品难产的局面,此前被传出售给Meta失败后,已经在采取裁员和缩减产品组合。随着微软收购后,其团队都将加入微软的数据中心基础设施建设开发团队。尽管收购至今,微软还没有拿出对应的产品,但可以想象其DPU方案必定会广泛用于Azure云服务器,从而抛弃第三方的方案,或是为后者统一接口。

写在最后

据市场研究公司Dell'Oro Group的预测,从DPU概念兴起的2020年到2028年,市场总值将维持25%的年复合增长率,其中绝大多数市场份额来自排名前四的美国云服务厂商,其次才是来自中国的前四大云服务厂商。

排除掉自研的云服务厂商们,DPU市场并不算大,在20亿美元左右,但持续增长的势头并没有减弱。即便是第三方DPU方案商,比如英伟达、AMD、英特尔、Marvell、Achronix和云豹智能等,也有机会凭借着更高的性能和AI服务器的热潮,打进头部云服务商的服务器中。但对于更小规模的组织来说,他们依然面临着选择受限、部署困难的问题。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/226205.html
0
最新回复(0)