报告出品方:东吴证券
以下为报告原文节选
------
1. 海外:模型、应用和算力相互推进
2 月 16 日,OpenAI 发布了首个文生视频模型 Sora。Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
3 月 4 日,Anthropic 发布了新一代 AI 大模型系列——Claude 3。该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。Claude 首次带来了对多模态能力的支持(Opus 版本的 MMMU 得分为 59.4%,超过 GPT-4V,与 Gemini1.0 Ultra 持平)。
3 月 18 日,马斯克开源大模型 Grok-1。马斯克旗下 AI 初创公司 xAI 宣布,其研发的大模型 Grok-1 正式对外开源开放,用户可直接通过磁链下载基本模型权重和网络架构信息。xAI 表示,Grok-1 是一个由 xAI 2023 年 10 月使用基于 JAX 和 Rust 的自定义训练堆栈、从头开始训练的 3140 亿参数的混合专家(MOE)模型,远超 OpenAI 的 GPT模型。
在 CEO 奥尔特曼的带领下,OpenAI 或许有望在今年夏季推出 GPT-5。
3 月 23 日,媒体援引知情人士透露,OpenAI 计划下周在美国洛杉矶与好莱坞的影视公司和媒体高管会面。OpenAI 希望与好莱坞合作,并鼓励电影制作人将 OpenAI 最新AI 视频生成工具 Sora 应用到电影制作中,从而拓展 OpenAI 在娱乐行业的影响力。
3 月 19 日,英伟达 GTC 大会上,英伟达发布新的 B200 GPU,以及将两个 B200与单个 Grace CPU 相结合的 GB200。
全新 B200 GPU 拥有 2080 亿个晶体管,采用台积电 4NP 工艺节点,提供高达 20petaflops FP4 的算力。与 H100 相比,B200 的晶体管数量是其(800 亿)2 倍多。而单个 H100 最多提供 4 petaflops 算力,直接实现了 5 倍性能提升。
而 GB200 是将 2 个 Blackwell GPU 和 1 个 Grace CPU 结合在一起,能够为 LLM推理工作负载提供 30 倍性能,同时还可以大大提高效率。
计算能力不断提升。过去,训练一个 1.8 万亿参数的模型,需要 8000 个 Hopper GPU和 15MW 的电力。如今,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4MW。
在 GPT-3(1750 亿参数)大模型基准测试中,GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。
2. 国内模型逐步追赶,提升算力需求
Kimi 逐渐走红。月之暗面 Kimi 智能助手 2023 年 10 月初次亮相时,凭借约 20 万汉字的无损上下文能力,帮助用户解锁了专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解 API 开发文档等,获得了良好的用户口碑和用户量的快速增长。
2024 年 3 月 18 日,Kimi 智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到 200 万字。
过去要 10000 小时才能成为专家的领域,现在只需要 10 分钟,Kimi 就能接近任何一个新领域的初级专家水平。用户可以跟 Kimi 探讨这个领域的问题,让 Kimi 帮助自己练习专业技能,或者启发新的想法。有了支持 200 万字无损上下文的 Kimi,快速学习任何一个新领域都会变得更加轻松。
访问量提升,kimi 算力告急。3 月 21 日下午,大模型应用 Kimi 的 APP 和小程序均显示无法正常使用,其母公司月之暗面针对网站异常情况发布说明:从 3 月 20 日 9点 30 分开始,观测到 Kimi 的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从 20 日 10 点开始,有较多的 SaaS 客户持续的体验到 429:engine is overloaded 的异常问题,并对此表示深表抱歉。
2024 年 3 月 23 日,阶跃星辰发布 Step 系列通用大模型。产品包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型,以及 Step-2 万亿参数 MoE 语言大模型的预览版,提供 API 接口给部分合作伙伴试用。
相比于 GPT-3.5 是一个千亿参数模型,GPT-4 是拥有万亿规模参数,国内大模型厂商如果想追赶,需要各个维度要求都上一个台阶。
阶跃星辰发布了万亿参数大模型预览版,标志着国产 AI 大模型取得了巨大进步。
国产 AI 大模型正在不断迭代,对算力需求会不断提升。
3. 国内算力产业现状盘点
3.1. 算力有哪些核心指标?
算力芯片的主要参数指标为算力浮点数,显存,显存带宽,功耗和互连技术等。
算力浮点数:算力最基本的计量单位是 FLOPS,英文 Floating-point Operations Per Second,即每秒执行的浮点运算次数。算力可分为双精度(FP64),单精度(FP32),半精度(FP16)和 INT8。FP64 计算多用于对计算精确度要求较高的场景,例如科学计算、物理仿真等;FP32 计算多用于大模型训练等场景;FP16 和 INT8 多用于模型推理等对精度要求较低的场景。
GPU 显存:显存用于存放模型,数据显存越大,所能运行的网络也就越大。
在预训练阶段,大模型通常选择较大规模的数据集获取泛化能力,因此需要较大的批次等来保证模型的训练强大。而模型的权重也是从头开始计算,因此通常也会选择高精度(如 32 位浮点数)进行训练。需要消耗大量的 GPU 显存资源。
在微调阶段,通常会冻结大部分参数,只训练小部分参数。同时,也会选择非常多的优化技术和较少的高质量数据集来提高微调效果,此时,由于模型已经在预训练阶段进行了大量的训练,微调时的数值误差对模型的影响通常较小。也常常选择 16 位精度训练。因此通常比预训练阶段消耗更低的显存资源。
在推理阶段,通常只是将一个输入数据经过模型的前向计算得到结果即可,因此需要最少的显存即可运行。
显存带宽:是运算单元和显存之间的通信速率,越大越好。
互连技术:一般用于显存之间的通信,分布式训练,无论是模型并行还是数据并行,GPU 之间都需要快速通信,不然就是性能的瓶颈。
3.2. 国产算力和海外的差距
从单芯片能力看,训练产品与英伟达仍有 1-2 代硬件差距。根据科大讯飞,华为昇腾 910B 能力已经基本做到可对标英伟达 A100。推理产品距离海外差距相对较小。
从片间互联看,片间和系统间互联能力较弱。国产 AI 芯片以免费 CCIX 为主,生态不完整,缺少实用案例,无 NV-Link 类似的协议。大规模部署稳定性和规模性距离海外仍有较大差距。
从生态看,大模型多数需要在专有框架下才能发挥性能,软件生态差距明显,移植灵活性,产品易用性与客户预期差距较大。客户如果使用国产 AI 芯片,需要额外付出成本。
从研发能力看,产品研发能力(设计与制程),核心 IP(HBM,接口等)等不足,阻碍了硬件的性能提升。
3.3. 国产化和生态抉择
海外制裁后,AI 芯片国产化诉求加大。主要系供应链安全和政策强制要求。
2024 年 3 月 22 日,上海市通信管理局等 11 个部门联合印发《上海市智能算力基础设施高质量发展 “算力浦江”智算行动实施方案(2024-2025 年)》。到 2025 年,上海市市新建智算中心国产算力芯片使用占比超过 50%,国产存储使用占比超过 50%,服务具有国际影响力的通用及垂直行业大模型设计应用企业超过 10 家。
但国产 AI 芯片由于生态、稳定性、算力等问题,目前较多用于推理环节,少数用于训练。如用于训练,则需花费较多人员进行技术服务,额外投入资源较大。
华为与讯飞构建昇腾万卡集群。2023 年 10 月 24 日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。1 月 30 日,讯飞星火步履不停,基于“飞星一号”,启动了对标 GPT-4 的更大参数规模的大模型训练。
“飞星一号“是科大讯飞和华为联合发布基于昇腾生态的国内首个可以训练万亿浮点参数大模型的大规模算力平台。也是国内首个已经投产使用的全国产大模型训练集群,采用昇腾 AI 硬件训练服务器和大容量交换机构建参数面无损 ROCE 组网,配置高空间的全闪和混闪并行文件系统,可支撑万亿参数大模型高速训练。
3.4. 国内算力厂商竞争要素
在中国市场,算力行业的核心竞争要素为供应链安全、服务能力、政府关系、资金、技术、人才等。
供应链安全。受美国制裁影响,众多算力芯片厂商芯片供应链出现问题。如果能够解决供应链问题,持续为客户供应芯片,将是一大核心竞争力。
服务能力。AI 算力集群的构建后续的运维需要强大的服务支持,对于生态基础较弱的国产芯片厂商要求更高。
政府关系。国产 AI 芯片的采购一大驱动为政策支持,具有良好的政府关系和客户渠道,可以打开市场空间。
资金、技术和人才。AI 芯片的研发和突破需要大量的资源投入,我们看好具备强大资金、技术和人才储备的公司。
3.5. 国内 AI 算力市场空间
IDC 报告预计,2023 年中国人工智能服务器市场规模将达 91 亿美元,同比增长82.5%,2027 年将达到 134 亿美元,2022-2027 年年复合增长率达 21.8%。
算力需求市场空间巨大。在英伟达 GTC 大会上,黄仁勋讲到,如果要训练一个 1.8万亿参数量的 GPT 模型,需要 8000 张 Hopper GPU,消耗 15 兆瓦的电力,连续跑上 90天。如果中国有十家大模型公司,则需要 8 万张 H100 GPU。我们预计,推理算力需求将是训练的数倍,高达几十万张 H100。随着模型继续迭代,算力需求只会越来越大。
随着国产化率逐步提升,我们预计 AI 芯片逐步成为国内芯片的主要组成。
4. 国内供给端:昇腾一马当先,各家竞相发展
北京商报对华为公司董事长梁华的主题演讲的分享中提到,昇腾已经在华为云和28 个城市的智能算力中心大规模部署,根据财联社报道,2022 年昇腾占据国内智算中心约 79%的市场份额。
4.1. 昇腾计算产业链
华为主打 AI 芯片产品有 310 和 910B。310 偏推理,当前主打产品为 910B,拥有FP32 和 FP16 两种精度算力,可以满足大模型训练需求。910B 单卡和单台服务器性能对标 A800/A100。
昇腾计算产业是基于昇腾 AI 芯片和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,能为客户提供 AI 全家桶服务。主要包括昇腾 AI 芯片、系列硬件、CANN、AI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。
硬件系统:基于华为达芬奇内核的昇腾系列 AI 芯片; 基于昇腾 AI 芯片的系列硬件产品,比如嵌入式模组、板卡、小站、服务器、集群等。
软件系统:异构计算架构 CANN 以及对应的调试调优工具、开发工具链 MindStudio 和各种运维管理工具等。
Al 计算框架包括开源的 MindSpore,以及各种业界流行的框架。
昇思 MindSpore AI 计算架构位居 AI 框架第一梯队。
下游应用:昇腾应用使能 MindX,可以支持上层的 ModelArts 和 HiAl 等应用使能服务。
行业应用是面向千行百业的场景应用软件和服务,如互联网推荐、自然语言处理、语音识别、机器人等各种场景。
华为云盘古大模型 3.0 基于鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为客户提供100 亿参数、380 亿参数、710 亿参数和 1000 亿参数的系列化基础大模型。
盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识 know-how 与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。
华为与行业伙伴一起推动华为大模型行业化。
4.1.1. 昇腾服务器
华为昇腾整机合作伙伴与鲲鹏整机合作伙伴几乎一致,产线共用,从华为直接获取AI 服务器或者芯片板卡制造成服务器。
4.1.2. 昇腾一体机
AI 训推一体机是指将大模型等软件和普通 AI 服务器整合在一起对外销售的整机。
用户画像:主要为 AI 能力自建能力较弱,想要借助 AI 软硬件一体化解决方案构建AI 能力的客户。
销售方:主要为 ISV,从华为整机厂拿到昇腾整机,然后装上 AI 模型和相关软件直接销售给终端使用客户。
单价:训推一体机由于整合了 AI 大模型等软件产品,单价会明显高于昇腾 AI 服务器裸机,具体价格看软件价格加持价值量。
4.2. 海光信息
DCU 已经实现批量出货,迎来第二增长曲线。海光 DCU 以 GPGPU 架构为基础,兼容通用的“类 CUDA”环境,主要应用于计算密集型和人工智能领域。深算二号已经于 Q3 发布,实现了在大数据、人工智能、商业计算等领域的商用,深算二号具有全精度浮点数据和各种常见整型数据计算能力,性能相对于深算一号性能提升 100%。
海光 DCU 产品性能可达到国际上同类型主流高端处理器的水平。深算一号采用先进的 7nm FinFET 工艺,能够充分挖掘应用的并发性,发挥其大规模并行计算的能力,快速开发高能效的应用程序。选取公司深算一号和国际领先 GPU 生产商 NVIDIA 公司高端 GPU 产品(型号为 A100)及 AMD 公司高端 GPU 产品(型号为 MI100)进行对比,可以发现典型应用场景下深算一号的性能指标可达到国际同类型高端产品的同期水平。
生态兼容性好。海光 DCU 协处理器全面兼容 AMD 的 ROCm GPU 计算生态,由于 ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,CUDA 用户可以以较低代价快速迁移至 ROCm 平台,因此 ROCm 也被称为“类 CUDA”。因此,海光DCU 协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件。
海光 DCU 相比海外性价比较高,总体在国内领先。从性能、生态综合来看,海光DCU 处于国内领先水平,是国产 AI 加速处理器中少数大量销售,且支持全部精度的产品。
在商业应用方面,公司的 DCU 产品已得到百度、阿里等互联网企业的认证,并推出联合方案,打造全国产软硬件一体全栈 AI 基础设施。
4.3. 寒武纪
寒武纪成立于 2016 年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。寒武纪主要产品线包括云端产品线、边缘产品线、IP授权及软件。
寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型 Baichuan2-53B、Baichuan2-13B、Baichuan2-7B 等已完成全面适配,寒武纪思元(MLU)系列产品性能均达到国际主流产品的水平。
2024 年 1 月 22 日,寒武纪与智象未来 (HiDream.ai) 在北京签订战略合作协议。
寒武纪思元(MLU)系列云端智能加速卡与智象未来自研的“智象多模态大模型”已完成适配,在产品性能和图像质量方面均达到了国际主流产品的水平。
4.4. 景嘉微
2024 年 3 月 12 日,公司面向 AI 训练、AI 推理、科学计算等应用领域的景宏系列高性能智算模块及整机产品“景宏系列”研发成功,并将尽快面向市场推广。
景宏系列是公司推出的面向 AI 训练、AI 推理、科学计算等应用领域的高性能智算模块及整机产品,支持 INT8、FP16、FP32、FP64 等混合精度运算,支持全新的多卡互联技术进行算力扩展,适配国内外主流 CPU、操作系统及服务器厂商,能够支持当前主流的计算生态、深度学习框架和算法模型库,大幅缩短用户适配验证周期。
5. 算力租赁
算力租赁就是对算力资源进行出租。使用者可以按需调用算力资源而无需自建算力基础设施。
算力租赁是数字经济时代的新兴产物。算力使用者无需投入大量资金购买计算设备,却可以使用高效稳定的计算服务,并根据实际使用情况支付相应费用。使用者通过租赁计算资源,可以快速地启动项目,减少相应成本。
AI 算力租赁刚刚兴起,参与方众多,格局还比较分散。当前布局 AI 算力租赁市场的主要分为以下几类。1)传统云计算服务提供商,比如三大运营商、阿里、腾讯等;2)具备 IDC 建设运营能力的央国企,比如云赛智联、广电运通等;3)具备 IDC 建设运营相关能力的民企,比如润泽科技、润建股份等;4)跨界厂商,比如迈信林等。
AI 算力租赁目前的核心竞争力是谁能拿到满足客户需求的 AI 算力卡。
国内大模型不断突破,应用不断落地,算力租赁需求有望持续提升。阶跃星辰提到通过自建机房+租用算力,积极进行算力储备。
6. 算力液冷
算力服务器液冷技术是一种采用液体作为散热介质的冷却方式。算力服务器液冷技术主要分为冷板式、浸没式和喷淋式三种。冷板式液冷目前行业成熟度最高,2023 上半年,中国液冷服务器市场中,冷板式占到了 90%。
两大催化推动算力液冷产业加速发展:1) AI 的快速发展,GPU 成为未来数据中心建设的主要方向。GPU 功耗显著高于 CPU,且提升速度逐步加快。3 月 19 日,GTC大会英伟达提出 GB200 使用液冷方案,其中 GB200 NVL72 服务器提供 36 个 CPU 和72 个 Blackwell GPU,并使用一体水冷散热方案,全部采用液冷 MGX 封装技术,成本和能耗降低 25 倍。2)国家政策对数据中心 PUE 建设要求越来越高。液冷技术是降低制冷系统能耗的主要技术手段。
液冷技术壁垒不高,行业壁垒较高。算力液冷难点在于修改服务器,服务器往往承载客户核心业务,对稳定性要求较高。服务器厂商对服务器构成和工作情况最为了解,因此服务器厂商具有先天优势。随着市场空间逐步打开,第三方厂商也有望进入市场。
测算:液冷服务器市场空间主要来自于两方面,一方面是存量服务器改造,另一方面是新增服务器建设。
存量改造:根据《基于价值工程的数据中心液冷与风冷比较分析》数据,浸没式液冷建设成本为 11818 元/kW,我们假设冷板式液冷建设成本约为 4000 元/kw。假设 AI 服务器功耗为10kW,则对应单台服务器浸没式和冷板式液冷建设成本分别为约为 11 万和 4 万元。
中国电子信息产业发展研究院副院长张小燕介绍,截至 2022 年 Q1,我国在用数据中心机架总规模达到 520 万架,在用数据中心服务器规模达 1900 万台。
假设 2025 年渗透率提升,单价和服务器机架数维持不变。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
科技 / 电子 / 半导体 /
人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |