4月26日,由艾笛网 iData主办、华为技术有限公司联合主办,以“大算力·新节能”为主题的2024GIDC互联网数据大会在上海成功召开。本次大会上,华为上海代表处大企业解决方案总监李冰受邀出席并带来《共建智能根基,加速行业智能化升级》的主题演讲。
李冰表示,对于未来,华为的观点是算力增长主要通过人工智能带动算力增长,可能会增长到500倍,通用计算可能只有10倍,人工智能算力是未来发展的大趋势。
关于比较火的大模型,国内走的路线和国外不一样。国外更多以聊天、视频生成为主,国内深入到各个行业、各个场景,中国是制造业大国,工业生产的场景比较丰富也适合国内厂商大模型深耕。
随着大模型的火爆,产业链布局整体来看分为三个方面:
一是金融、企业,头部客户通过算力提升自己的工作效率和产品竞争力;
二是IDC企业,包括几大运营商正在做的事,通过算力升级向中小企业提供人工智能算力。
三是政府积极投入,建设一些普惠性算力为教科研机构和中小企业提供服务。
面向IDC,华为提供业界最完善的算力解决方案,人工智能公共算力硬件平台,包括AI服务器、网络交换机、存储服务器及安全设备,以及相应的资源监控、告警日志等运维平台,由华为提供。管理计算、存储、网络等基础设施硬件,并提供AI训练环境,由华为或伙伴提供。基础大模型以及具有特定行业特征的行业大模型。基础大模型可由华为或伙伴提供。实现产品管理,价格管理、营销策略、销售分析、配额控制等功能,通过伙伴提供相应能力。数据中心机房及相应的供电制冷等,由IDC企业提供。
李冰表示,底座里最重要的环节就是昇腾算力底座,并且与英伟达的差距也在一步步缩小。华为已经形成和英伟达相匹配的一系列解决方案,对应英伟达的处理器有昇腾处理器,对应英伟达的异构计算架构有昇腾异构计算架构,能力在逐渐补齐。面向大模型,昇腾已经适配业界主流的大模型。面向AI计算框架,昇思支持Pytorch等,实际上昇腾的产品和昇思同时使用时,整个性能实际比通常的算力性能提升20%左右。面向算子生态,CANN能力重构,使能极简开发、极致性能。
目前,昇腾已支持国内外开源开放大模型,也是国内唯一已完成训练千亿参数大模型的技术路线,业界主流大模型PyTorch实测性能均达到0.8~1.1倍A800。
针对AI算力华为主推的训练服务器——Atlas 800T A2,标准尺寸,通用电源,整个服务器算力2.5P,安装部署及机房维护归一,一键接入客户网络,支持8张卡,200G Roce网络。
李冰提到,大模型的发展有几个明显的趋势,模型向千亿稠密/万亿稀疏的模型架构演进,超长序列——Sora已支持60秒的长视频或是1兆的文本理解,以及多模态,可以看到,大模型技术发展带来对超大规模组网、多级存储等技术的需求。
在计算方面,不同的需求、不同的算力精度在持续增加。另外随着模型量的变化、样本的增加,越来越多的要求指向并行计算,所以更大规模的集群要求明显越来越多。一旦达到千卡、万卡,网络的高性能、零丢包是必不可少的,网络如何做到零丢包、高带宽,支持模型长时间高强度训练也是一个比较复杂的问题。在存储方面主要体现在更大数据量存储和读写。
针对以上这些情况,华为公司提供AI大集群的RoCE的网络方案,0丢包,高吞吐,全自智:
超大集群:计算、网络、存储一体化网络规划建设。超融合网络四平面分离设计、统一承载、集中管控运维、独立扩展、故障隔离,极简化二层组网架构,减少光模块和线缆消耗,快速交付、维护简化,大规模组网极简架构,平滑扩展,集群半径可达2km以上。
智能无损:彻底解决以太丢包问题。基于AI算法实时感知网络流量模型,自适应调整ECN水线;PFC deadlock free 自动预防PFC死锁。
此外,大模型开发应用面临四大挑战,其中高性能AI存储成为必选项。华为的华为AI存储解决方案,使算力释放更彻底,AI全业务流程加速60%以上,毫秒级推理响应,行业推理更精准。华为CCAE集群运维管理系统,集群管理从“单域” 走向“集中”,训练作业路径全局可视可管。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/369356.html