(记者林碧涓)近日,中国电信临港智算谷1.2期机楼封顶仪式在临港新片区举行,1.2期机楼的建起,预示着智算谷将迎来10万卡时代。
算力正成为数字经济时代的重要资源,我国算力基础设施尤其是智能算力迅猛发展,为千行百业数字化转型注入新动能。
(图片来源:摄图网)
AI主战场,万卡已是标配
《流浪地球》中浩瀚无垠的宇宙、木星爆炸后的塌陷与火球;《长安三万里》的繁华瑰丽、热烈浪漫……每一帧精彩画面的背后,少不了算力的支撑。算力作为生产力,已大规模应用在各行各业中,不仅带来了效率的提升和成本的节约,还促进了创新加速、服务升级、产业升级等。
如今,以大模型为代表的人工智能加速发展,并逐步深入行业实践,走进生活、生产场景。与此同时,多模态大模型的推动,让文本、图像、音频和视频的融合变得更加重要,模型参数量从千亿迈向万亿,模型能力更加泛化,对底层算力的诉求将进一步升级。
万卡集群则成为了破题方法之一。中国工程院院士郑纬民指出,“构建国产AI卡的万卡大模型训练平台很难,但也很重要以及必要。”
万卡集群是指由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,这种集群可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。目前,在国际上,OpenAI、Google、Meta等科技巨头,都争向部署万卡集群,用来支撑其在基座大模型、智能算法研发及生态服务等方面的技术创新。在国内,通信运营商、头部互联网、大型AI研发企业等均在万卡集群中有所建设。以运营商中国电信为例,其目前在上海、北京两个万卡集群已经投产,其中,中国电信临港智算谷终期规划30万卡高端智算集群。
云计算能力体系创新
在AI领域的征途中,智能算力便是那不可或缺的“先行军粮”。面向智能化需求,中国电信天翼云打造“算力、平台、数据、模型、应用”五位一体的智算云能力体系,满足各个区域、各种行业场景的不同需求。
加速推进多层次智能算力布局,满足快速增长的智能算力需求。目前,天翼云在全国范围内构建了“2+4+31+X”的资源池,超前构建智能算力布局,在北京、上海、湖北、湖南等省市构建了智算中心。在北京、上海两个万卡池的建设过程中,不断推进AIDC技术创新,采用新一代智算液冷DC舱,大幅提升端到端交付效率,实现数据中心能效和智算集群算效双提升。
有了算力,就要考虑算力互联、跨域调度管理等问题,以实现供需匹配。针对此,中国电信通过升级“息壤”一体化智算平台,实现了算网调度、异构计算、训推服务等关键技术的突破,支持第三方算力与天翼云自有算力并网,让智算更普惠。
此外,在大模型方面,天翼云预置中国电信自有大模型,引入开源模型和第三方模型,加强模型国产化生态适配,提供丰富模型库。在数据层面,中国电信积累了丰富的多模态高质量数据集;全面升级数据综合管理平台,依托数据编织技术,实现多模态、跨源、跨域数据的统一整合和集中治理。在应用层面,天翼云汇聚第三方应用,形成以多模态AI应用为核心的场景化AI应用生态。
合作创新,促智算发展
随着人工智能技术的日益成熟与普及,算力规模正稳步攀升。截至2023年底,提供算力服务的在用机架数达810万标准机架,算力总规模超过230EFLOPS,其中智能算力规模达到70EFLOPS,新增算力基础设施中智能算力占比过半,成为算力增长的新引擎。算力建设迈入了一个新阶段,向更加多元化、多层次化的智能计算体系迈进,以满足日益复杂多变的AI应用场景需求。但在当前阶段,智能算力也面临多个问题,这对运营商提出了新的挑战。
算力创新方面,我国算力核心技术的创新仍存在明显差距,在高端芯片和软件研发方面,关键技术仍面临“卡脖子”风险,难以支撑大模型、元宇宙等高性能场景建设。随着算力向生产生活各个领域的渗透逐渐深入,算网融合持续推进,算力作为转换数据价值的生产要素,安全保障至关重要。
因此需要运营商深化行业合作,加强跨行业、跨领域的合作与交流,共同推动智能算力技术的研发和应用。此前,天翼云携手合作伙伴举行了“开源大模型社区发布暨生态繁荣计划启动”仪式,共铸大模型应用繁荣生态。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1296099.html