高负荷下的人工智能GPU: 平均寿命仅1-3年

科闻社2024-10-29 15:37:20 106

在当今人工智能（AI）和高性能计算（HPC）日益依赖的环境中，图形处理单元（GPU）已经成为数据中心的重要计算资源。然而，最近的报告指出，这些高价GPU在实际使用中的寿命可能仅为1到3年，给AI行业的经济带来了潜在的影响。

根据Tech Fund引用的一位来自Alphabet的高级专家的观点，数据中心GPU的寿命受到其利用率的极大影响。现代数据中心中，GPU主要用于执行AI训练和推理等高强度计算任务。在这种情况下，GPU往往处于高负荷状态，导致其磨损速度远超其他硬件组件。云计算服务提供商（CSP）在运营中发现，GPU的利用率通常维持在60%至70%之间，这种高负荷的工作环境进一步缩短了GPU的预期寿命。

在这样的利用率下，GPU的平均寿命一般在1到2年之间，最多可延长至3年。这一观点虽然尚未得到充分验证，但由于现代GPU的功耗通常达到700W或以上，确实给硅片带来了巨大的压力，这使得这种看法具备一定的可信度。

为了延长GPU的使用寿命，降低其利用率被认为是一种有效的方法。然而，这样的做法会导致GPU的贬值速度减缓，进而影响到资本回收的效率，这对于大多数商业运营来说并不是理想的选择。因此，许多云服务提供商更倾向于维持GPU的高利用率，以实现最佳的投资回报。

Meta在早些时候进行的一项研究表明，他们在训练Llama 3 405B模型时，使用了由16,384个Nvidia H100 80GB GPU组成的集群。尽管该集群的模型浮点运算利用率（MFU）约为38%，但在54天的训练过程中，发生了419次不可预见的故障，其中148次（约30.1%）是由各种GPU故障引起的，包括NVLink故障，而72次（约17.2%）则由HBM3内存故障引起。这表明，即使在相对较低的利用率下，GPU也面临着显著的故障风险。

Meta的研究结果显示，若以其故障率为依据，H100 GPU的年度故障率约为9%，而在三年内的年度故障率则约为27%。然而，随着GPU服役时间的延长，故障的频率可能会进一步增加，这给运营带来了不小的挑战。

随着AI和HPC应用的不断发展，数据中心对GPU的需求只会持续增长。然而，GPU的短寿命周期却使得数据中心的运营维护面临严峻考验。为了应对这一挑战，行业亟需开发更加耐用的GPU架构，寻找有效的管理和延长GPU使用寿命的方法。

与此同时，数据中心运营商还需要重新评估其硬件更新策略，以适应不断变化的技术需求和日益增长的计算负载。以传统三年折旧期为基础的资本投资计划已显得不再现实，企业需转向短期投资回收计划，以应对可能的现金流压力。

*免责声明：以上内容整理自网络，仅供交流学习之用。如有内容、版权问题，请留言与我们联系进行删除。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/1429899.html

随机主题

复盘海港2-0蓉城: 无惧卫冕冠军被失误击倒, 奥斯卡完成致命点射跌至1549元加速退场, 近100万跑分+120w快充, 越来越香了 20GB+256GB+1TB扩展, 顶配跌至999元, 蓝厂5G手机售价再创新低王猛: 从没见爱德华兹这么累过根本突不动第四节全是跳投终结华沃酿酒：程工糖酒会大展身手，调酒技艺惊艳全场 12.58万起售, 长城炮2.4T柴油版来了, 提供6MT/9AT可选第20届中国(深圳)国际文化产业博览交易会开幕梦幻西游：安东1093神器扇加盟夫子庙，曲阜冲2000万战神以色列总理遭全球通缉, 布林肯害怕极了, 以后岂不要通缉美国总统!彩！彩！彩！荣耀magic6保时捷pk华为pura70ultra！哈里王子抨击威廉: 太无趣了?虎牢关时期, 谁能抵挡吕布100招? 仅2人可以, 关羽张飞赵云都不行新垣结衣老公被曝出轨，对象为一位新婚的NHK女主播老头杯最强三费诞生! 无脑四保一害惨Uzi, lwx被最菜下路线杀三次汽车工业进入新时代, 日产逍客开始大降价, 还值得入手吗?8900多买了部华为pura70ultra手机，玩游戏流畅60帧非常给力哈哈外卖小哥看泰山比赛落泪, 王大雷: 我想以最真诚的方式表示感谢英国惊天丑闻曝光，美西方信用彻底崩塌！A股突发杀跌：市场绿油油的背后真相揭秘派林生物: 子公司获得静注人免疫球蛋白(10%)临床试验批准《夜族崛起》暗黑来袭——是德古拉也是伐木工

最新回复(1)

趣车坊2024-10-30 01:58
引用1楼
我1660玩吃鸡2000+小时平均占用率95%以上依旧耐操[得瑟]