大模型浪潮加速算力竞赛, 国产GPU升级“万卡”集群

北京日报客户端2024-07-04 10:07:10 134

7月3日，总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

“AI模型训练的主战场，万卡已成为标配。”摩尔线程创始人兼CEO张建中说。随着计算量不断攀升，大模型训练亟需超级工厂，也就是一个“大且通用”的加速计算平台，从而缩短训练时间，实现模型能力的快速迭代。

所谓万卡集群，是指由一万张及以上的计算加速卡（如GPU）组成的高性能计算系统，用以训练基础大模型。这种集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台“超级计算机”，可支持千亿级甚至万亿级参数规模的大模型训练，有助于大幅压缩大模型训练时间，以实现模型能力的快速迭代。

当前，国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群，以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。

据了解，构建万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的超级系统工程。它涉及超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。“可以把万卡集群想象为一个万人团队，团队需要有非常强的沟通机制，才能协同把一件事情做好。”摩尔线程相关负责人说，希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台，并优先解决大模型训练的难题。

据悉，在集群计算性能方面，全新一代夸娥智算集群实现单集群规模超万卡，浮点运算能力达到10Exa-Flops，大幅提升单集群计算性能，能够为万亿参数级别大模型训练提供算力基础。

稳定性是衡量超万卡集群性能的关键，“早期千卡故障率可能0.1%就可以了，而到万卡要提升到0.01%甚至是0.001%，这对硬件设计、生产制造都是很大的挑战。”张建中说。稳定性方面，夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上。

当日，中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司分别就三个万卡集群项目与摩尔线程进行了战略签约，将共建国产GPU集群。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/818608.html

随机主题

活动合影站角落, 朱婷被孤立? 张常宁丁霞热聊, 谁注意李盈莹表态掌握牛头滚，轻松应对屏风马两头蛇#象棋莱希坠机原因找到了？或离不开这一国，细节罕见公布，局势恐变天短剧头部演员接连病倒？张集骏输液近一月，申浩男吃药鹿单东养病十年磨一剑《上古卷轴Online》被赞3A佳作 1928年，张作霖被炸身亡，却意外拉进了张学良与蒋介石的关系什么时候买摩托车最划算?全无人化Robotaxi，居然有这种骚操作？内地封杀的女星, 被岛国拍出来了南海交锋, 外军4打2, 解放军战机遭火控雷达锁定, 现场惊心动魄短篇小说: 苦尽甘来苹果倒在手机AI时代?太巴适了哇, 成渝高速扩容重要节点迎喜讯, 改善沿途百姓出行条件湖人引援新动向: 天时地利人和齐聚, 2年6950万锁定17+11内线巨塔演训随时可能变实战！东部战区突然行动，毫无征兆却已包围台岛？35万以上豪华车, 合资+纯电, TA就是销量冠军, 一口气攀登67名深蓝CEO称在电动化的浪潮下硬派的燃油时代结束了丛明晨凌晨4点发博庆祝夺冠: 兄弟们牛逼纯纯躺赢周琦家庭内景曝光! 客厅挺大还有架子鼓很快把娃带哭货币工具持续支持“三大工程”暑期中美航线增至每周92班! 机票怎么买便宜?

最新回复(2)

爱动漫百晓生2024-07-05 06:50
引用2楼
摩尔就是国产GPU芯片厂家[得瑟]
小前锋的电影2024-07-04 12:59
引用1楼
芯片是国产的吗？这个很关键