IT之家7月24日消息,埃隆?马斯克的孟菲斯超级计算集群(MemphisSupercluster)已上线,据马斯克介绍称,该集群在单个RDMAfabric上使用10万张液冷H100,是“世界上最强大的AI训练集群”。
如此庞大的算力自然需要惊人的电力供应,每个H100GPU至少消耗700瓦电力,这意味着整个数据中心同时运行需要超过70兆瓦的电力,这还不包括其他服务器、网络和冷却设备的耗电量。令人惊讶的是,由于与当地电网的供电协议尚未敲定,马斯克目前使用14台大型移动发电机为这个巨型设施供电。
AI和半导体分析师DylanPatel最初在社交媒体上表示,由于电力限制,马斯克的孟菲斯超级计算集群可能无法运行。他指出,目前仅从电网抽取了7兆瓦电力,只能支持约4000个GPU运行。田纳西河谷管理局(TVA)将在8月1日之前向该设施提供50兆瓦电力,前提是xAI能签署相关协议。Patel还观察到,xAI场地的150兆瓦变电站仍在建设中,预计将于2024年第四季度完工。
然而,通过卫星图像分析,Patel很快发推文称他发现了马斯克的解决办法——使用14台VoltaGrid移动发电机连接到看起来像四个移动变电站的设备。
每台半挂车大小的发电机可提供2.5兆瓦电力,14台总共能提供惊人的35兆瓦电力。加上从电网获得的8兆瓦电力,总共为43兆瓦,足以以有限功率运行3.2万个H100GPU。
如果田纳西河谷管理局在8月初为其提供所需的50兆瓦电力,马斯克将有足够的电力同时运行6.4万个GPU。Patel表示,运行10万个GPU需要155兆瓦电力,但xAI需要变电站才能达到这个水平。因此,要么变电站提前完工,要么马斯克将部署更多移动发电机来满足电力需求。
巨大的电力消耗及其对全球变暖的影响是目前AI数据中心面临的主要问题。仅2023年售出的所有数据中心GPU的耗电量就超过了130万个普通美国家庭耗电量的总和,给电网带来了巨大压力。而且,仅仅建设更多的发电厂并不能满足数据中心的需求,还需要建设高压输电线路、变电站等额外基础设施,才能将电力从发电厂输送到服务器。
除了建设AI计算所需电厂的时间和成本外,还必须考虑温室气体排放。虽然马斯克在孟菲斯超级计算集群部署的移动发电机使用天然气作为燃料(比煤炭或石油更清洁),但在运行过程中仍然会向大气中排放碳。
IT之家注意到,谷歌最近透露,由于数据中心能源需求,其碳足迹自2019年以来增长了48%。因此可以预见,除非马斯克转向更清洁的能源生产方式,否则xAI也将面临同样的问题。
马斯克正全力推动xAI成为AI开发领域的领跑者,并为此不惜一切手段。希望使用移动发电机只是暂时的解决方案,孟菲斯超级计算机集群需要过渡到更清洁的能源,而田纳西河谷管理局可以提供这种能源。由于后者使用核能、水电和化石燃料发电的组合,如果xAI从其采购电力而不是依赖仅使用天然气的移动发电机,其碳足迹会更小。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/950192.html