从2023年初ChatGPT横空出世,到后来的百模大战如火如荼,再到如今AI落地换挡提速,围绕算力的“全民焦虑”始终贯穿其间。
供求关系紧张是产生算力焦虑的根源所在。一方面,大模型训练与推理需求呈几何级数爆发——自2022年以来,人工智能算力需求每3~4个月就翻一番,每年训练AI模型所需算力增幅高达10倍,而生成式AI使上升曲线进一步陡峭,未来大模型算力需求每两年会以750倍的速度飙涨;另一方面,硬件算力供给预计每两年仅增长3倍,再加上GPU供应存在“看不见的手”在干扰,算力芯片的供求缺口相当巨大。
焦虑泛滥处,怪象频生时。“N卡难求”引发抢购、囤货风潮,而市场中也很难找到直接对标国际巨头单卡性能的产品。其实,对于单卡性能的执念,很可能是个认知陷阱。相关统计显示,Transformer模型从2017年诞生至今,制程改进促成的芯片性能提升约8倍,而通过系统创新带来的算力综合性能改善则高达1000倍。这意味着单一芯片作用的递减效应渐趋明显,整个系统的价值挖掘愈发重要。透过OpenAI的演进轨迹,就会发现AI算力的重心已从单机向集群蜕变:伴随大模型的参数规模从百亿、千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。
显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考虑到外部环境的制约,以及与国产大模型共同打造AI产业商业闭环的需求,构建自主创新的国产化集群更是迫在眉睫。
值此关键节点,国内GPU头部创企摩尔线程推出的夸娥(KUAE)智算中心解决方案以全功能GPU为底座,包含以夸娥(KUAE)智算集群为核心的基础设施、KUAE Platform集群管理平台以及KUAE ModelStudio模型服务,旨在以一体化交付方式解决大规模GPU算力的建设和运营管理难题。
这是打造国产化智算集群的一小步,更是掌握AI算力主动权的一大步。
从痛点入手寻求集群的突破口
“如果买不到A100,我们到底该怎么办?”这是国内诸多用户在相当一段时间里感到无解的问题。当时,很难找到直接对标且能满足需求的替代产品,搭建集群的崭新路径是一条可行之路。
用户的痛点就是变革的动力。作为国内GPU领域的开路先锋,摩尔线程始终认为应该做“难而正确的事”,构建集群亦是如此。早在2022年,公司成立两周年之际,摩尔线程就组建了云计算团队,确立了建设集群的大方向与具体的实施策略。
随着AI大模型参数越来越大,对算力集群的高度依赖和渴求,让摩尔线程更加坚定了构建大规模集群的决心。如果说百卡或更小规模的集群主要是实验性的尝试,那么千卡集群则是满足大模型训练的基本单元,可以此为突破口不断扩展算力。因此,攻下千卡集群这个桥头堡,支持千亿参数大模型训练,成为摩尔线程的首要任务。
事实上,从0到1的质变过程,对摩尔线程来说并不陌生。摩尔线程短时间内已在全功能GPU产品上取得重大突破,涉足的领域从游戏显卡到物理仿真再到AI训练与推理,能在功能上对标英伟达。从其广泛的布局可以看出,摩尔线程的野心是要打造独特的系统级/平台企业,而不是成为一家单一的芯片厂。
如今,摩尔线程已经具备了云的全栈能力,通过打造国产千卡智算集群,摩尔线程又成为国内第一批“吃螃蟹的人”。
多管齐下探索国产千卡集群的进化路径
关于集群构建的路径探索,业界存在不少误区。有人认为“集群就是一堆服务器叠在一起”,也有人觉得“集群的算力越大越好”,这些观点都低估了复杂系统的运行难度,以及多要素协同突围的重要性。
早在超级计算机流行时期,就曾出现过几千张处理器并行处理的盛况,而要连续运转10~12个小时且保持高度的稳定性殊为不易;对大模型训练而言,通常需要3000~4000P的算力支撑,并预期达成7×24小时不间断的正常运行,这对千卡乃至万卡集群构成了异常严峻的挑战。
以整体来看,集群建设无疑是一个系统性复杂工程,从GPU到服务器再到组成集群,涵盖计算、存储、网络、软件以及大模型调度等多个环节,对算力利用率、稳定性、可靠性、可扩展性、兼容性等指标都有颇高的要求。市场期待出现能满足智算中心全栈式需求的交钥匙解决方案,摩尔线程夸娥(KUAE)正是在这样的背景下脱颖而出。
摩尔线程夸娥智算中心全栈解决方案架构
就解决方案的整个结构而言,夸娥主要有三大支柱:一是以KUAE计算集群、RDMA网络与分布式存储为主体的基础设施,支持从单卡到千卡集群的无缝扩展;二是KUAE Platform 集群管理平台,用户可灵活管理多数据中心、多集群算力资源,并实现运维自动化;三是KUAE ModelStudio模型服务,覆盖大模型预训练、微调和推理全流程,大幅降低大模型的使用门槛。基于三大支柱形成的合力,摩尔线程夸娥(KUAE)解决方案构筑起强大的“护城河”。
首先,显著提升算力利用率(MFU)是集群安身立命的根基。有数据显示,OpenAI在GPT4训练过程中的算力利用率约为35%,还有相当多大模型训练的实际算力利用率不足20%。摩尔线程采用软硬协同设计及端到端并行策略,基于集群通讯库算法、网络拓扑、硬件规格合理配置等方式,综合利用MTLink和PCIe,使通讯性能提升一倍,综合调优下MFU提升幅度超过50%。
其次,稳定性和可靠性是集群行稳致远的保障。在分布式训练中,一张卡坏了就会影响整个训练的进展,而对于千卡乃至更大规模的集群来说,卡坏的概率及破坏性会更高,因此对整个集群的稳定性与可靠性提出前所未有的要求。
摩尔线程夸娥千卡集群支持长时间连续稳定运行,可达到7天连续无故障训练和分钟级的故障恢复,并支持大规模AI分布式训练下全栈稳定性诊断与性能分析,结合断点续训以及高性能网络和存储,异步检查点(Checkpoint)读写少于2分钟,大幅提升集群算力利用率和有效训练时长。
摩尔线程还从多维度确保夸娥能达到客户预期:一是保证卡的质量,从出厂起即做好严格测试;二是开发集群系统监控和诊断工具,辅助筛选和快速定位有问题的卡和服务器,可自动恢复和硬件替换;三是通过checkpoint加速使写的时间从10分钟降到秒级,读的速度从40分钟降到2分钟;四是若判断训练异常,系统自动重新拉起。
摩尔线程夸娥智算集群八大核心能力
再次,改善可扩展性是集群实现全局突破的必由之路。只有以软硬一体的方式进行系统级优化,才能达成可扩展性的全面突围。据了解,夸娥支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等业界主流分布式框架,融合数据并行、张量并行、流水线并行和ZeRO等多种并行算法策略,且针对高效通信计算并行和Flash Attention做了额外优化。基于摩尔线程夸娥千卡集群,70B到130B参数的大模型训练,线性加速比均可达到91%,算力利用率基本保持不变。以200B训练数据量为例,智源研究院70B参数Aquila2可在33天完成训练;1300亿参数规模的模型可在56天完成训练。
最后,强大的兼容性是集群持续进化的动力。基于摩尔线程自研的代码移植Musify工具,客户可快速将现有的主流迁移至MUSA,零成本完成在CUDA上的代码自动移植,明显缩短迁移优化的周期。目前,摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等几十个主流大模型的训练和微调。此外,摩尔线程开源的MT Pytorch支持多种模型的推理,覆盖CV、NLP、语音等多个领域,能运行典型的大模型分布式多卡推理,也支持单机多卡与多机多卡的分布式训练。MT PyTorch还可完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。
奔赴国产AI算力生态的星辰大海
根据GIV的统计,到2030年,通用算力将增长10倍,达到3.3 ZFLOPS,而智能算力将增长500倍,达到105 ZFLOPS。作为人工智能产业的算力底座,智算中心未来3~5年有望保持30%+的高速成长,千卡、万卡集群将是其完成跃迁的重要跳板。
在特定的外部环境因素制约下,国内智算中心未来搭建集群主要有两个选择:一是采用国内外芯片“混搭”的集群模式,这对系统优化的要求很高,“最短的木板”可能影响算力整体效率的充分释放,预计需要较长时间的磨合方能找出最优路径;二是采用国产化的集群模式,在“能用”的基础上向“好用”不断迈进,以扎实的实践成果开辟自主创新的广阔天地。
从这个意义上讲,摩尔线程夸娥(KUAE)智算中心解决方案颇具示范效应,为国产化智算集群树立起新的标杆:一个月内即可帮助用户搭建用作大模型训练平台的千卡集群,交钥匙工程、一体化交付、开箱即用成为其赢得客户信赖的最佳标签。目前,摩尔线程已完成南京、北京亦庄和北京密云3个千卡智算中心的落地,这一模式的渗透进程有望全面提速。
令人欣喜的是,国产化智算集群的探路者并不孤单,摩尔线程等厂商领衔的国产AI算力生态正在形成。当行业应用场景更丰富的国产大模型,得到国产化千卡、万卡集群的加持,才能有望催生富有活力的国产AI应用——这个世界不应该只有一种选择,我们也不应该把主动权让渡给别人。