2023年,在阿里云栖大会上,阿里云创始人、中国工程院院士王坚说,人工智能和云计算的发展现在走到了一起。云计算和GPT的关系,将像是电和电动机,模型将会像智能时代的电动机一样,消耗掉云计算提供的大多数算力。当那一天来临,意味着诸多由模型驱动的新业态出现。
更大规模的模型:让数万亿参数大模型在云端可用
英伟达Blackwell GPU在亚马逊云科技上的应用,将加速生成式 AI 前沿技术发展,并提升万亿参数大语言模型在云端的推理加速。
在大模型研发领域,万亿级参数规模代表了业界最前沿的水平。业界有消息称,GPT4的模型参数是1.8万亿。英伟达此次发布的Blackwell 架构GPU,目标就直指万亿参数大模型。
Blackwell B200是目前最强大的AI芯片,FP4性能高达20 petaflops,是上一代卡皇H100的5倍。
Blackwell GB200超级芯片是将2个Blackwell GPU和1个Grace CPU结合在一起,性能更加强大。与H100相比,Blackwell GB200对于大模型推理工作负载可实现30倍的性能提升,同时将成本和能耗降低25倍。
GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,通过第五代 NVIDIA NVLink? 互连。其可实现720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。一个GB200 NVL72机柜可以训练27万亿参数的AI模型。
很快,上述这些AI算力“核弹”就能在亚马逊云科技上使用了。
客户将能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell超级芯片和B100 Tensor Core GPUs的基础设施,从而在云上构建和运行数万亿参数的大语言模型。
云计算要“三位一体”地发展
人工智能给中国云计算的发展带来了“第三次浪潮”:第一次浪潮,出现在十年前,出现了以Netflix、米哈游为代表的云原生企业,中国的云计算业务在这个阶段起步,但由于国内市场成熟得太慢,便落后于海外;第二次浪潮,出现在传统企业采用云计算之时,但并没有将中国的云计算拉上正确的发展轨道;第三次浪潮,正发生在当下,由生成式人工智能带来机遇。
“算力、云计算、人工智能”,要把握好这次机遇,王坚提到了三个关键词,“不能把这三者拆开来看,这三件事情一定要三位一体地来搞” 。
算力是基础,GPU等板卡就像是“砖头”,搭建起算力所需的基础设施;云计算提供的是组织服务能力,把“砖头”提供的算力调动起来;大模型(人工智能)提供最终落地的可能性。找到真正消耗算力的场景,这是发展云计算最重要的环节。
在王坚看来,当前社会上对“大模型”的定义有些宽泛而含混,大模型事实上需要分五个层面来理解。首先是基础模型训练,即如何用万卡集群把一款模型训练出来,这是最消耗算力也是最考验技术能力的环节。第二是模型调整,在通用模型的基础上,调出适用于个别行业或垂直领域的模型。第三是应用模型,可不基于通用模型,而是由其他类型数据训练得来。第四是模型应用,也就是将大模型用到千行百业,很多时候人们常把模型的应用当作是在开发大模型,这是非常不严谨的看法。第五是将模型变成一类服务,并应用到用户那里。
在理解大模型的五个层面中,前两个环节对算力的需求是最高的。但随着用户数量的增长,模型应用过程中所需的算力可能将超过模型训练所需。“如果一个国家应用模型的算力成为主流,那么我们的产业就成形了。”王坚说道。
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/25799.html