当AI已经无处不在的时候,我们将如何面对?
这是当今数字化、智能化时代,每一个品牌都需要考虑的问题。日前,联想在上海召开了以“AI for All,让世界充满AI”为主题的第十届联想创新科技大会(2024 Lenovo Tech World),并重磅发布了“联想万全异构智算平台”。依托于这一全新异构智算平台,联想中国基础设施业务正以“一横五纵”战略框架,布局完整、稳定高效的AI导向的基础设施,为企业智能化转型打造坚实可靠的智算底座。
这并不是一套单纯的解决方案,而是实现了从下到上,打通从基础设施到上层应用的AI基础设施解决方案。这一方案的提出,也体现了联想智算发展“天时地利人和”的多方优势。
迎天时,政策引领带来产业发展新契机
所谓“天时”,即算力需求暴增,智算走上历史舞台,特别是从产业发展与政策驱动层面得到了大力推动。去年10月,工业和信息化部、中央网信办等6部门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年的发展量化指标——到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。
无独有偶,今年两会的《政府工作报告》中着重强调要“大力推进现代化产业体系建设,加快发展新质生产力……其特点是创新,关键在质优,本质是先进生产力”。这也说明在国家政策层面,对算力尤其是智算应用的需求已经非常迫切。
与此同时,经过2023年全年ChatGPT的火爆与2024开年Sora的强烈冲击,如今的大模型市场已经进入了AI 2.0阶段。一方面,AI模型参数的指数级增加,迈入千亿、万亿级大关,对于后台算力中心的要求更高;另一方面,绿色、低碳的需求也让算力中心在提升性能的同时也要兼顾发展,因此传统粗放型的算力增长已经不能满足需求,如何提升智算水平、打造智算一体化平台解决方案,成为摆在每一个从业者面前的核心问题。
正因为如此,万全异构智算平台的横空出世就显得水到渠成又顺应人心,特别是其中的异构与智算两大因素也响应了当下行业对于多元化算力、智能化应用的多维需求。
享地利,“一横五纵”布局为千行万业夯实智算底座
所谓“地利”,即联想多年来积累的技术实力与服务经验。许多人都知道联想是中国PC市场的第一名,但其实联想在企业级市场也是硕果累累。在被誉为计算机界“皇冠上的明珠”的超算领域,联想曾九次问鼎并蝉联TOP100数量份额第一,更是荣获了“2023中国算力领军企业”奖。正如联想集团副总裁、中国基础设施业务群总经理陈振宽所强调的:“联想是扎根于中国的高科技企业,引领了一个又一个的中国IT技术发展浪潮”。
而这一次, 万全异构智算平台的发布更体现了联想全新的“一横五纵”AI导向的基础设施布局。其中,“一横”是指异构智算平台,能够对通用计算集群、科学计算集群和AI算力集群进行统一管理,并且能通过对多种CPU、GPU、DPU等处理器的异构管理调度,大幅优化算力的使用效率,帮助用户简捷、高效地使用算力资源;而“五纵”则是指服务器、存储、软件及超融合、数据网络以及边缘基础设施产品和方案。
从全局来看,“一横五纵”体现了联想在企业级市场的产品布局和策略,更突出了全面、创新、前瞻、生态等优势。万全异构智算平台的发布,集成了五大创新技术,而无论从目前的大模型应用还是未来的数字化发展来说,联想都已经有了布局,更可贵的是联想还可以通过该方案提供适应不同场景的需求定制化,以及携手生态伙伴打造跨行业的服务能力。
虽然看起来简单,但是这其中无论是技术层面、产业层面还是生态层面,无论是异构智算平台、绿色节能的液冷解决方案,还是万全生态,都可以看出联想的多维度布局,表明了其强大的执行力和对实现战略目标的坚定决心。由此,我们也看到了联想面向未来AI时代的决心和努力,由此也可以加速数字化与智能化的进步,推动产业升级。
这其中,万全异构智算平台作为“一横”,起到了关键的平台作用,它通过智能匹配提供最佳算力,基于核心算法提效,并通过液冷技术创新实现绿色算力。
面对AI 2.0时代带来的技术应用升级,联想AI基础设施也瞄准了三大领域,它们分别是为用户匹配经过验证优化的最佳算力、赋能用户充分利用算力,提升计算效率以及以先进的液冷技术帮助用户节能增效且突破芯片散热的瓶颈。基于此,联想万全异构智算平台也集成了五大创新技术,包括算力匹配魔方、GPU内核态虚拟化、联想集合通信算法库、AI高效断点续训技术、AI与HPC集群超级调度器等等,打造了高质量、高标准的异构智算平台。
联想中国基础设施业务群战略管理总监黄山详细介绍了五大创新技术的能力与价值。其中,算力匹配魔方基于海量的硬件评测和AI算子算法集成工作,魔方中的数千个交叉点中的每一个都代表一种场景和与之最匹配的算法和集群配置。应用算力匹配魔方,用户可以跳过选择验证数十种算法和近百种AI集群配置的复杂过程,只需输入场景和数据,算力魔方即可自动加载最优算法和调度最佳集群配置。
“去年以来,领先的AI算力技术创新者开始发布在GPU驱动层的GPU内核态虚拟化算法,逐步减少虚拟GPU的算力损耗。联想是其中走在最前沿的创新者,并与GPU伙伴经数年合作已经能将GPU虚拟化效率逼近95% ,在算法并行度极高的极致情况下可达99%以上。这一成果背后是算法的三大革新: 一,是对算力和显存精准隔离的算法,以<3%的误差精准控制容器资源,二是在GPU驱动层做资源调度,去掉在驱动之上不必要的操作,三是在GPU驱动层将虚拟GPU的颗粒度精细到1%。 联想万全异构智算平台融入GPU内核态虚拟化能力,在用户端成功实践,在多类推理和精调场景大幅提升GPU利用率20%-30%“,在谈到如何优化GPU内核虚拟化应用、提升计算潜力的时候,黄山介绍说。
另一项引起大众关注的技术就是AI断点续训,这也是当下大模型应用中客户经常遇到的问题。因为训练模型巨大、涉及到的设备众多,不少AI训练都会出现这样或者那样的故障,因此有必要在训练前设置故障检查点和备份,以备训练因故障中断时能提取备份做到从断点续训。而联想异构智算平台在常规以外,深化了对软、硬件的全面监控,优化了多级存储备份架构和策略,更以多年积累的AI训练故障预测的AI模型来预测断点和提前优化备份,由此能将断点续训恢复时间缩减到分钟级。
除此之外,黄山也详细介绍了异构智算平台的负载均衡优化等策略,这样就能够在调度CPU、GPU、TPU等多种计算资源的同时,根据不同资源的优化实现设备之间的协同作用最大化。当然这其中涉及到任务调度、资源虚拟化、性能监控、协同计算策略等诸多因素,而这也正是万全异构智算平台价值和能力的最佳体现。至此,万全异构智算平台不仅可以防止资源之间的冲突,还可以提高整体的计算效率和性能,实现了1+1大于2的效果。
聚人和,异构智算产业生态联盟加速数字中国发展
最后我们看到的就是万全异构智算平台的“人和”,即生态与产业的布局。现场,联想集团与中国智能计算产业联盟共同宣布,发起成立异构智算产业生态联盟,联合产业头部生态伙伴共建联想万全生态,助力中国智算生态繁荣发展与创新。
“联想在生态中主要贡献硬件能力和异构智算平台的集群管理调度能力。然后是对算力生态的包容,即硬件会兼容xPU生态硬件,异构智算平台会集成xPU底层软件。再就是以extended UI的方式对接集成AI工具链生态”,黄山介绍说。
据悉,异构智算产业生态联盟首批共计16家成员单位。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容。由此看来,一方面联盟可以为中国用户提供丰富的一站式的方案,以适应多样化的AI应用场景;另外也可以通过生态全链条的紧密合作调优来不断提升算力效率,解决算力荒,能耗荒,引导中国智算产业健康发展。
一直以来,联想都是AI应用的先行者,而这次上海举办的联想创新科技大会,更让人看到了联想如今“AI for All”的决心和态度。这一次发布的联想万全异构智算平台更面向未来智算发展提供了成熟解决方案,也体现了联想在人工智能领域的深厚积累和强大实力,以及其在推动AI技术普及和应用方面的积极姿态和战略布局。或许在不久的将来,真的如联想预判的那样,数字化将让AI无处不在,遍布于工作还是生活中,真的可以“让世界充满AI”。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/330456.html