10万个GPU打造的超算, 长啥样?

玩数据还有点懒2024-06-19 16:35:19  53

科技巨头埃隆·马斯克再次展现了其宏伟蓝图,其创办的人工智能公司xAI计划建设一座超级算力工厂(Gigafactory of Compute)。马斯克在与投资者的交流中透露,xAI计划购买10万个基于Hopper架构的英伟达H100 GPU,以训练其下一代AI聊天机器人Grok。为了让聊天机器人变得更加聪明, xAI计划将这些芯片整合到一台大型计算机当中。

目前最大的GPU集群

这个「超级计算工厂」一旦完工,规模将至少是当前最大GPU集群的4倍。比如Meta官网在3月发布的数据显示,他们当时推出了2个包含2.4万个H100 GPU的集群用于Llama 3的训练。

虽然英伟达已经宣布今年下半年开始生产并交付全新架构Blackwell的B100 GPU,但马斯克目前的计划还是采购H100。

为什么不用最新型号的芯片,反而要大批量购入快要淘汰的型号?这其中的原因,老黄本人向我们解释过——「在今天的AI竞争里,时间很重要」。

英伟达会每一年更新一代产品,而如果你想等我的下一个产品,那么你就丢失了训练的时间和先发优势。

下一个达到里程碑的公司会宣布一个突破性的AI,而接下来的第二名只在它上面提升0.3%。你要选择做哪一种?

这就是为什么一直做技术领先的公司很重要,你的客户会在你上面建设并且相信你会一直领先。这里面时间很重要。

这就是为什么我的客户现在依然疯狂的在建设Hopper系统。时间就是一切。下一个里程碑马上就来。

然而,即使一切顺利,「超级计算工厂」在马斯克的「个人负责」下按时交付,这个集群到了明年秋天是否仍然有规模优势,也是一个未知数。

扎克伯格今年1月曾经在Instagram上发帖,称Meta到今年底将再部署35万个H100,加上之前的算力总共相当于60万个H100,但他并未提及单个集群的芯片数量。

但这个数字没过半年就几乎翻了一番,5月初Llama 3发布前,有消息称Meta已从英伟达额外购买了50万块GPU,总数达到 100 万块,零售价值达300亿美元。

同时,微软的目标是到年底拥有180万个 GPU,OpenAI甚至更加激进,希望为最新的AI模型使用1000万个GPU。这两家公司也在讨论开发一个价值1000亿美元的超级计算机,包含数百万个英伟达GPU。

入局云服务,与微软AWS分一杯羹

在去年3月的GTC 2023大会上,老黄曾首次发布了云产品DGX Cloud,用户以月租的方式,在本地或者本地数据中心获取英伟达的AI产品与服务。

英伟达的初次入局,直接与微软、AWS这样的云服务商展开竞争。

有趣的是,DGX Cloud运行在从云服务提供商租赁的英伟达服务器集群上,然后英伟达以更高的价格将这些服务器租给自己的客户。

不难料到,英伟达触碰到大厂蛋糕之后,AWS最初抵制英伟达在自家数据中心,建立竞争业务。不过,后来AWS所有的小型竞争对手都同意英伟达条款后,它不得不做出妥协。

在2023年11月,双方宣布AWS将成为首家采用最新GH200 NVL32 Grace Hopper超级芯片的云提供商,同时将NVIDIA DGX Cloud引入AWS。

去年秋天,英伟达甚至考虑为DGX Cloud租赁自己的数据中心,完全将第三方云提供商的角色排除之外。

据知情人士透露,英伟达最近还聘请了Meta Platforms的一位高级主管Alexis Black Bjorlin来管理云业务。不过,目前尚不清楚他们是否会继续推进自建数据中心计划。

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/785141.html
0
最新回复(0)