高负荷下的人工智能GPU: 平均寿命仅1-3年

科闻社2024-10-29 15:37:20  106

在当今人工智能(AI)和高性能计算(HPC)日益依赖的环境中,图形处理单元(GPU)已经成为数据中心的重要计算资源。然而,最近的报告指出,这些高价GPU在实际使用中的寿命可能仅为1到3年,给AI行业的经济带来了潜在的影响。

根据Tech Fund引用的一位来自Alphabet的高级专家的观点,数据中心GPU的寿命受到其利用率的极大影响。现代数据中心中,GPU主要用于执行AI训练和推理等高强度计算任务。在这种情况下,GPU往往处于高负荷状态,导致其磨损速度远超其他硬件组件。云计算服务提供商(CSP)在运营中发现,GPU的利用率通常维持在60%至70%之间,这种高负荷的工作环境进一步缩短了GPU的预期寿命。

在这样的利用率下,GPU的平均寿命一般在1到2年之间,最多可延长至3年。这一观点虽然尚未得到充分验证,但由于现代GPU的功耗通常达到700W或以上,确实给硅片带来了巨大的压力,这使得这种看法具备一定的可信度。

为了延长GPU的使用寿命,降低其利用率被认为是一种有效的方法。然而,这样的做法会导致GPU的贬值速度减缓,进而影响到资本回收的效率,这对于大多数商业运营来说并不是理想的选择。因此,许多云服务提供商更倾向于维持GPU的高利用率,以实现最佳的投资回报。

Meta在早些时候进行的一项研究表明,他们在训练Llama 3 405B模型时,使用了由16,384个Nvidia H100 80GB GPU组成的集群。尽管该集群的模型浮点运算利用率(MFU)约为38%,但在54天的训练过程中,发生了419次不可预见的故障,其中148次(约30.1%)是由各种GPU故障引起的,包括NVLink故障,而72次(约17.2%)则由HBM3内存故障引起。这表明,即使在相对较低的利用率下,GPU也面临着显著的故障风险。

Meta的研究结果显示,若以其故障率为依据,H100 GPU的年度故障率约为9%,而在三年内的年度故障率则约为27%。然而,随着GPU服役时间的延长,故障的频率可能会进一步增加,这给运营带来了不小的挑战。

随着AI和HPC应用的不断发展,数据中心对GPU的需求只会持续增长。然而,GPU的短寿命周期却使得数据中心的运营维护面临严峻考验。为了应对这一挑战,行业亟需开发更加耐用的GPU架构,寻找有效的管理和延长GPU使用寿命的方法。

与此同时,数据中心运营商还需要重新评估其硬件更新策略,以适应不断变化的技术需求和日益增长的计算负载。以传统三年折旧期为基础的资本投资计划已显得不再现实,企业需转向短期投资回收计划,以应对可能的现金流压力。

*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1429899.html
0
随机主题
复盘海港2-0蓉城: 无惧卫冕冠军被失误击倒, 奥斯卡完成致命点射跌至1549元加速退场, 近100万跑分+120w快充, 越来越香了20GB+256GB+1TB扩展, 顶配跌至999元, 蓝厂5G手机售价再创新低王猛: 从没见爱德华兹这么累过 根本突不动 第四节全是跳投终结华沃酿酒:程工糖酒会大展身手,调酒技艺惊艳全场12.58万起售, 长城炮2.4T柴油版来了, 提供6MT/9AT可选第20届中国(深圳)国际文化产业博览交易会开幕梦幻西游:安东1093神器扇加盟夫子庙,曲阜冲2000万战神以色列总理遭全球通缉, 布林肯害怕极了, 以后岂不要通缉美国总统!彩!彩!彩!荣耀magic6保时捷pk华为pura70ultra!哈里王子抨击威廉: 太无趣了?虎牢关时期, 谁能抵挡吕布100招? 仅2人可以, 关羽张飞赵云都不行新垣结衣老公被曝出轨 ,对象为一位新婚的NHK女主播老头杯最强三费诞生! 无脑四保一害惨Uzi, lwx被最菜下路线杀三次汽车工业进入新时代, 日产逍客开始大降价, 还值得入手吗?8900多买了部华为pura70ultra手机,玩游戏流畅60帧非常给力哈哈外卖小哥看泰山比赛落泪, 王大雷: 我想以最真诚的方式表示感谢英国惊天丑闻曝光,美西方信用彻底崩塌!A股突发杀跌:市场绿油油的背后真相揭秘派林生物: 子公司获得静注人免疫球蛋白(10%)临床试验批准《夜族崛起》暗黑来袭——是德古拉也是伐木工
最新回复(1)
  • 趣车坊2024-10-30 01:58
    引用1
    我1660玩吃鸡2000+小时 平均占用率95%以上 依旧耐操[得瑟]