优化 | 块坐标下降法: 助力单张3090全参数高效微调7B级大模型

运筹课程2024-05-02 03:28:30  106

研究背景

随着大模型在人工智能领域的崛起,其强大的功能在各个研究领域得到了广泛的挖掘和应用。大模型的微调训练(fine-tuning)是实现其在下游任务中发挥作用的关键步骤,因此,针对高效微调训练的优化算法研究,已经成为了学术界和工业界关注的焦点。全参数微调能够最大限度地发掘大模型在特定任务上的潜力,但这种方法往往需要耗费大量的GPU计算资源 (GPU RAM)。在资源受限的情况下,诸如LoRA等参数高效的微调算法显得尤为重要,成为了在计算资源受限的环境下的首选方案,但其与全参数Adam微调仍存在一定的性能差异。如何在有限的资源下实现接近全参数微调的性能,已成为大模型研究领域的热点。本文从优化算法设计的视角出发,针对此问题提出了算法——BAdam(Block coordinate method with Adam as an inner solver),在大模型的微调训练中实现资源与性能的最优平衡。

算法设计

块坐标优化(block coordinate optimization)是一种历史悠久、变体众多的优化算法设计策略。在每次迭代中,这种优化策略保持大部分优化参数在其最新的迭代值,(近似)求解剩余参数形成的低维度优化问题。由于算法每步迭代需要求解的是一个比原始问题维度低得多的优化问题,应用高效的近似求解算法于子问题可最终获得原始大规模优化问题的高效求解算法。块坐标类优化算法尤其适用于优化变量数巨大的大规模优化问题,而这一特性正是大模型微调训练的特征,以Llama 2-7B大模型为例,其微调训练所需训练集中的数据个数通常在10万以下的量级,而其待优化的参数量却高达70亿。

由于上述子问题依旧具有高度非凸的特性,BAdam应用神经网络训练中被广泛认可的Adam算法作为子问题的近似求解器。算法的总体设计如下图:

算法特性

实验效果

本文所有实验均在单张RTX3090-24GB GPU上实际实现。 本文通过实际的微调任务场景,在Alpaca-GPT4数据集上微调训练Llama 2-7B,来比较BAdam与目前主流的几个内存高效的微调算法的性能表现。下图展示了相同data pass下几种内存高效微调算法的训练损失,可以看出BAdam算法的优势;根据上一节的分析,BAdam算法在实际运行时间上会有更明显的优势:

通过MT-bench评估的下游任务表现显示了BAdam算法在使用更少计算时间的同时,利用全参微调带来的相比LoRA微调算法的优势:

此外,在SuperGLUE benchmark上的表现显示出BAdam具有接近全参数Adam微调的能力:

总结

本研究初步探索表明,块坐标下降类算法在当代大模型研究领域展现出较为广泛的应用潜力。该类算法在确保下游任务性能不受明显影响的同时,有效降低了对GPU内存资源的依赖,进而促进了大模型在低内存资源条件下的高效优化。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/398630.html
0
随机主题
郭德纲受邀去威尼斯大学演讲, 被授予荣誉勋章, 夸奖郭麒麟超过自己阵容强大却口碑皆输的10大烂片, 全看过的我是服了海岛上有了“生态警务”辽篮夺冠3大奇兵! 小郭艾伦称霸第4场, 八一旧将连克广东、新疆我国发布全球首个开源大规模片上互联网络 IP“温榆河”争议!NBA最佳阵容引球迷不满,这仨人凭啥入选?不用慌! 盯紧关键技术点位快递站里、电视里、超市小票里都能见到, 为了这件事, 杭州桐庐消防拼了周四002 【荷甲欧罗巴季后赛前瞻】奈梅亨 vs 前进之鹰: 欧战门票争夺战郑州12岁女生校运会跑步后离世, 校方最新通报朱一珺新搭档孙文骏 孙文骏(石宇奇教练孙俊之子)人需要多少个偶然才能成为自己! 治愈老头杯最强三费诞生! 无脑四保一害惨Uzi, lwx被最菜下路线杀三次“我来雄安了! ”全国35家80余位媒体代表走进雄安2024年, 灵活就业和企退人员同样缴费15年, 谁的养老金更有优势?65年, 彭总拒绝主席让其复出的提议, 主席: 你先来我这一趟再说美国黑鲈“入侵”珠江, 成为新的霸主? 就连清道夫它们也能生吞!戏中戏负责看点, 真戏负责惊悚悬疑, 一片多吃和国家队退役冯极内部教学赛实景,对抗性非常高,能力差距有点大泽连斯基乌克兰总统泽连斯基五周年之际,极力督促北约武器到位!BG推文《拉上始皇去造反》女帝文,超有野心一门心思造反的女主没想到她居然造的自己亲爹的反,收服的大才是自己的亲爹
最新回复(0)