百模大战引爆「千卡集群竞赛」, “中国英伟达”交卷了

智东西2024-04-26 21:16:48 53

作者 | 三北

大模型正引发一波新的AI算力荒，从此前的芯片紧缺，上升为AI算力集群级的饥渴症。

根据产业链消息，参数可能仅30亿的Sora用4200-10500块H100训练了1个月；最新出炉的Llama 3 8B和70B的训练需要24000多块H100组成的集群；据称有1.8万亿参数的GPT-4是在10000-25000张A100上完成了训练……

OpenAI、Meta等都在用数千卡、甚至万卡串联，满足不断攀升的大模型训练需求，也给了我国大模型企业一本可参考的算力账。

然而，多位GPU算力集群业内人士告诉智东西，当下我国智能算力处于严重的供不应求状态。在GPU全球稀缺背景下，单卡性能已相对没那么重要，通过集群互联实现整体算力的最大化，成为解决AI算力荒的必要路径。

政策也已经紧锣密鼓地下发。4月24日，北京市经济和信息化局、北京市通信管理局印发《北京市算力基础设施建设实施方案（2024—2027年）》，方案提出，规划建设支撑万亿级参数大模型训练需求的超大规模智算集群，并对采购自主可控GPU芯片开展智能算力服务的企业予以支持。

产业这边的动作也没有落后。国内的头部算力厂商都已加速布局大规模智算集群，比如云服务巨头华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心，头部AI芯片公司摩尔线程过去四个月也已在南京、北京亦庄和北京密云完成3座全国产千卡智算中心的落地，助国产大模型产业发展提速。

大模型产业发展对智算中心提出什么新要求？国内大规模智算中心建设的真实情况如何？如何让拔地而起的千卡甚至万卡集群实现从“建起来”到“用起来”的跨越？本文试图从摩尔线程等公司的实践，对这些问题进行探讨。

一、从Sora到Llama 3，千卡集群成百模大战标配

自2024年Sora、Claude 3、Llama 3等爆火模型推出以来，大模型的智能涌现态势不减反增，推动国内大模型厂家加速追赶，对AI算力的需求也持续升级。

国产大模型玩家无论是要持续攀登Scaling Law（规模定律）高峰，还是走行业大模型的捷径，都迫切需要更大规模算力；同时大模型向多模态方向发展，需要处理包括文本、图像、声音等多种类型的数据，亟需全功能的GPU；而行业大模型甚至需要算力厂商充当起“全栈式生态服务平台”角色，服务大模型落地的“最后一公里”。

在这些多样化新需求驱动下，将芯片系统组合起来的新型千卡智算中心，成为满足大模型产业落地的重要抓手，也成为大国AI较量的标配新基建。

产业先锋已经纷纷展开行动，国内头部AI芯片公司摩尔线程在过去四个月里加速布局了三座千卡算力集群，通过自家夸娥（KUAE）智算中心解决方案为大模型打造智算底座，开箱即用，助大模型企业解决大规模GPU算力的建设和运营管理问题。

基于夸娥打造的智算中心已经初见落地成效。目前，摩尔线程支持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。基于摩尔线程夸娥千卡集群，70B到130B参数的大模型训练，线性加速比均可达到91%，算力利用率基本保持不变。

以2000亿训练数据量为例，智源研究院700亿参数Aquila2可在33天完成训练；1300亿参数规模的模型可在56天完成训练。此外，摩尔线程夸娥千卡集群支持长时间连续稳定运行，支持断点续训，异步Checkpoint少于2分钟。

从传统的“重硬轻软”走向“软硬一体化”，成为这批新智算集群的普遍特点。摩尔线程夸娥就是一个软硬一体化的全栈解决方案，包括基础设施、集群管理平台及模型服务，据称可全方位降低传统算力建设、应用开发和运维运营平台搭建的时间成本。

▲夸娥（KUAE）智算中心解决方案架构

基础设施：包含夸娥计算集群、RDMA网络与分布式存储。摩尔线程夸娥千卡模型训练平台，建设周期只需30天，支持千亿参数模型的预训练、微调和推理，可实现高达91%的千卡集群性能扩展系数。基于MTT S4000和双路8卡GPU服务器MCCX D800，摩尔线程夸娥集群支持从单机多卡到多机多卡，从单卡到千卡集群的无缝扩展，未来将推出更大规模的集群，以满足更大规模的大模型训练需求。

KUAE Platform集群管理平台：用于AI大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。通过该平台，用户可灵活管理多数据中心、多集群算力资源，集成多维度运维监控、告警和日志系统，帮助智算中心实现运维自动化。

KUAE ModelStudio模型服务：覆盖大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY开发工具，可以轻松复用CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。该平台意在提供大模型生命周期管理，通过简洁、易操作的交互界面，用户可按需组织工作流，大幅降低大模型的使用门槛。

▲夸娥（KUAE）智算中心解决方案支持端到端一体化交付

二、从“建起来”到“用起来”，夸娥突破4道难关

过去一年，我国千P级智算中心的智算基建布局集中爆发，根据工信部发布数据，截至2023年10月我国算力规模超300EFLOPS，智能算力占比高达35%。然而，国内的千卡智算中心仍处于发展初期，面临严峻挑战。

多位智算业内人士告诉智东西，我国智算中心建设既面临算力供应链问题，同时大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术因素也造成智算平台建设的技术瓶颈。

摩尔线程相关负责人谈道，集群建设是一个系统性复杂工程，从GPU显卡到服务器，最后把它组成集群，这里面包括了硬件的网络、存储、软件，再到大模型调度，是一个全栈式的工程，要真正把它做好，需要一个端到端的交钥匙方案。

从客户角度来讲，他们对千卡集群的算力利用率、稳定性、可扩展性和兼容性的需求最为突出。这也成为千卡集群建设要迈过的四道难关，摩尔线程为此做足了准备。

1、软硬协同，算力利用率提升超50%

算力利用率（MFU）是衡量智算中心能力的一个核心指标。即便是OpenAI在早期也面临MFU瓶颈，根据公开资料，其MFU在GPT-3训练阶段仅为21.3%，近79%的算力都被浪费了。

摩尔线程采用软硬协同设计、端到端的并行策略，使得综合调优下算力利用率（MFU）提升幅度超过50%。夸娥通过集群通讯库算法、网络拓扑、硬件规格合理设计和配置，优化集群匹配度；技术上，夸娥集群通讯算法网络拓扑综合利用了MTLink和PCIe，使得通讯性能提升一倍。

2、从芯片出厂开始，保证稳定可靠性

对于分布式训练而言，一张卡坏了，整个训练都会停掉。对于一个大规模集群来说，例如千卡甚至更大的集群，卡坏的概率会更高。所以，在做千卡集群或者更大规模集群时，它对整个集群的可靠性要求会更高。

摩尔线程从卡的出厂开始保证算力质量，做了很多严格的测试；开发了集群系统监控和诊断工具，帮助筛选和快速定位到有问题的卡和服务器，可以自动恢复和硬件替换；做了checkpoint加速，写的时间从10分钟降到秒级，读的速度从40分钟降到2分钟；判断训练异常，系统自动重新拉起。

3、提高可扩展性，线性加速比达91%

算力集群规模达到千卡，更是一个可扩展性的挑战。夸娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，并融合了多种并行算法策略，包括数据并行、张量并行、流水线并行和ZeRO，且针对高效通信计算并行和Flash Attention做了额外优化。

同时，夸娥结合了摩尔线程显卡硬件能力，以软硬一体的方式，做了系统级优化，包括从硬件、软件再到集群，外加云的全栈，不是单点突破，是一种全局综合方案，从而使得线性加速比达到91%。

4、零成本CUDA代码移植，兼容多个主流大模型

基于摩尔线程代码移植Musify工具，可快速将现有的主流迁移至MUSA，零成本完成CUDA代码自动移植，之后用户短时间内即可完成热点分析和针对性优化，大大缩短迁移优化的周期。此外，借助摩尔线程元计算统一系统架构MUSA，用户可以复用PyTorch开源社区的大量模型算子，降低开发成本。

与此同时，摩尔线程开源的MT Pytorch可以支持多种模型的推理，覆盖CV、NLP、语音等多个领域，能够运行典型的大模型分布式多卡推理，也可以支持单机多卡与多机多卡的分布式训练。利用数据并行、模型并行以及ZERO等分布式训练技术，MT PyTorch还可以完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。

▲夸娥（KUAE）智算中心解决方案八大优势

总的来说，传统的计算模式在大模型时代面临着多重难点，只有长期投入并加强架构创新、软硬结合、场景结合、兼容协同等举措，才能够让智算集群完成从“建起来”到“用起来”的跨越。

三、国产大模型的超车时刻，“中国英伟达”交卷

打破英伟达对AI的垄断，国内外玩家都进入了一个“交卷”时刻。

在国外，我们看到亚马逊、微软、谷歌都已推出了面向大模型的AI定制芯片，对英伟达芯片进行部分替代，从而保证自家大模型持续可迭代和落地。

在国内，华为、摩尔线程、寒武纪、海光等头部AI芯片厂商，软硬件生态也已初具规模，技术架构自成一体，且已拥有集群能力和落地场景；同时多家AI芯片创企也在推动产品落地和量产，抢占大模型市场。

在备受关注的国产GPU领域，摩尔线程作为“中国英伟达”的主力选手，也已经打造了全栈AI方面的护城河。以全功能GPU为算力底座，摩尔线程夸娥提供从卡（MTT S4000）、服务器（MCCX D800）到千卡集群（K1、K2、K3）的完整智算产品组合，通过软硬一体化的服务，将成为大模型企业的最佳选择之一。

近日，摩尔线程正与无问芯穹联合推进基于夸娥千卡集群的“MT-infini-3B”合作大模型实训，目前性能已在同规模模型中跻身前列。无问芯穹联合创始人兼CEO夏立雪表示：“经无问芯穹Infini-AI平台实训与联合优化工作验证，摩尔线程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有优异表现，且在实训中实现了长时间稳定训练不中断，已可以为千亿参数级别大模型训练提供持续高效的高性能算力支持。之后我们会把这一合作模型在Infini-AI上开放给大家使用。”

随着今年“AI+”首次被写入两会工作报告，AI算力成为新质生产力的重要引擎，国产大模型进入关键的超车时刻。业内人士告诉智东西，今年大模型会出现一个拐点，同时也是国产AI芯片的分水岭，强者越强，弱者愈弱。

摩尔线程自2022年起就成立云计算团队，设定了建设千卡集群的大方向。在当时A100等算力紧张的背景下，摩尔线程作为在功能上唯一对标英伟达的国产GPU企业，在具备云的全栈能力后，构建基于全功能GPU的国产千卡智算集群，成为了国内赛道“第一批吃螃蟹的人”。随着大模型的爆发，摩尔线程夸娥智算中心解决方案已经完成从0到1的建设，有望成为国产大模型发展的重要引擎助力。

结语：国产大模型跨越时，千卡集群打造加速度

从ChatGPT到Sora，大模型之战已经愈演愈烈，国产大模型迫切需要加速追赶跨甚至超越，这催生了市场对更大规模、更高性能的计算资源的迫切需求，也推动计算中心的架构及运营模式进行更新换代。

千卡集群、万卡集群是满足AI算力需求的抓手，这一理念已逐渐深入人心。然而这种大规模智算集群的隐形壁垒越来越高，要求算力厂家在芯片、调优、通信及系统性开发和管理等多方面下功夫，从而真正跑出大模型产业发展的加速度。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/339468.html

随机主题

在上合转正，蒙古国迟迟不松口，拉夫罗夫亮明立场，不想再等20年曝森林北爱上汪峰损失大, 活动被取消, 阳光清纯遭质疑, 但不后悔合砍63分逆转! 欧文再现超强得分能力, 东契奇关键中投赢球彩！彩！彩！荣耀magic6保时捷pk华为pura70ultra！S36赛季更新确定, 玄策白虎志返场, 168碎片换传说皮肤!14岁离家出走16岁被逼当小三? 姐的逆袭简直是女性之光冰火两重天! 丰田扩厂, 日产停产 | 百能云芯听我的劝告: 早入手小米14 Pro的人别轻易看价格, 你会后悔 24G+1TB跌价500元, 120倍长焦+5400mAh, 全能旗舰机也妥协了身处“底层”的游戏文案乐道L60开启预售, 起售价为21.99万元演训随时可能变实战！东部战区突然行动，毫无征兆却已包围台岛？扛不住了？乌总统呼吁西方参战，乌民众请愿：征召泽连斯基入伍！A股突发杀跌：市场绿油油的背后真相揭秘武则天已经打算还政李唐, 为何张柬之等人还要发动神龙政变?开着元PLUS去春游! 更适合年轻人的“移动空间”江天化学: 公司不生产共聚聚甲醛、偏苯三酸酐(TMA)等产品中国中化参与建成全球最大单套产能丙烷脱氢项目浅谈说说为何装机选i7 13700KF而非R7 7800X3D 暑期中美航线增至每周92班! 机票怎么买便宜?张作霖做事有多狠？不仅崩掉自己小舅子，还敢集合部队和日本开战

最新回复(0)