"大模型+强化学习"最新综述! 港中文深圳详解四条主流技术路线

之槐看科技2024-04-11 15:00:58 85

【新智元导读】用大模型来辅助强化学习，可以提高模型在多任务学习、样本利用率、任务规划等复杂任务下的能力，该论文综述了LLM-enhanced RL领域的最新进展，总结了LLM-enhanced RL的主要技术框架、特性以及四种主要技术路线；并分析了未来该方向的机会与挑战。

强化学习（RL）通过与环境交互的试错反馈来优化顺序决策问题。

虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力（例如王者荣耀，Dota 2等），但很难在包含大量自然语言和视觉图像的现实复杂应用中落地，原因包括但不限于：数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。

大语言模型（LLM），通过在海量数据集上的训练，展现了超强的多任务学习、通用世界知识目标规划以及推理能力。以ChatGPT为代表的LLM已经被广泛应用到各种现实领域中，包括但不限于：机器人、医疗、教育、法律等。

在此背景下，LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力，帮助提高强化学习在复杂应用下的学习表现，例如自然语言指令跟随、谈判、自动驾驶等。

为此，来自香港中文大学（深圳）的团队调研了130余篇大语言模型及视觉-语言模型（VLM）在辅助强化学习（LLM-enhanced RL）方面的最新研究进展，形成了该领域的综述文章一篇，目前以预印版形式上传到arXiv网站，期望能为各位研究人员和工程人员提供一定的技术参考。

论文链接：https://arxiv.org/abs/2404.00282

该综述总结了LLM-enhanced RL的主要技术框架、特性以及四种主要技术路线；并分析了未来该方向的机会与挑战。

下面针对文章主要内容概括介绍，详细内容请参阅英文综述论文。

LLM-enhanced RL 框架

LLM-enhanced RL 定义：指利用已预训练、内含知识（knowledge-inherent）的AI模型的多模态（multi-modal）信息处理、生成、推理等能力来辅助RL范式的各种方法。

主要特性（Characteristics）：

1. 多模态信息理解（multi-modal information understanding）

2. 多任务学习和泛化（multi-task learning and generalization）

3. 样本利用率的提高（improved sample efficiency）

4. 长期轨迹规划能力（long-horizon handling）

5. 奖励信号生成能力（reward signal generation）

LLM的主要角色分类

1. 信息处理者（information processor）：包括1）文字和视觉表征提取；2）复杂自然语言翻译。

2. 奖励设计者（reward designer）：即隐式奖励模型与显式奖励模型（奖励函数代码生成）。

3. 决策者（decision-maker）：包含直接决策与间接辅助决策两种。

4. 生成者（generator）：即1）世界模型中的轨迹生成和2）强化学习中的策略（行为）解释生成。

LLM 作为信息处理者（LLM as Information Processor）

在富含文字和视觉信息的环境中，深度强化学习（deep RL）通常需要同时学习多模态的信息处理和决策控制策略，因此学习效率大幅下降。且不规范、多变的自然语言和视觉信息往往会对代理学习产生大量干扰。

LLM在此情况下可以（1）有效表征提取，加速下游神经网络学习；（2）自然语言翻译，将不规范、冗余复杂的自然语言指令和环境信息翻译为规范的任务语言，帮助代理过滤无效信息。

LLM 作为奖励设计者（LLM as Reward Designer）

奖励函数设计和有效奖励信号生成一直是强化学习在复杂任务或者稀疏奖励环境下的两大难题。

大模型可以通过以下两种方式缓解该问题

1. 隐式奖励函数设计：利用上下文理解能力、推理能力和知识，通过任务prompt或文字-视觉对齐的方式生成奖励

2. 显式奖励函数设计：通过输入环境规范信息，LLM生成可执行奖励函数代码（例如 Python 等），显式地逻辑计算奖励函数的各个部分，且可以根据评估自主修正。

LLM 作为决策者（LLM as Decision-Maker）

在决策问题中，大模型可以作为：

1. 直接决策者：Decision Transformer在离线强化学习中展现了巨大的潜力，大语言模型可视作增强版的大型预训练Transformer模型，利用本身强大的时序建模能力和自然语言理解能力解决离线强化学习的长期决策问题。

2. 间接决策者：作为一个指导者，结合预训练专家知识和任务理解能力，生成动作候选（action candidates），缩小动作选择范围；或者生成参考策略（reference policy）指导RL策略更新。

LLM 作为生成者（LLM as Generator）

在基于模型的强化学习（model-based RL）中，LLM可以作为多模态世界模型（world model），结合自身知识和建模能力来生成高质量长期轨迹或者学习世界状态转移表征。

在可解释强化学习中，大模型可以通过理解轨迹、环境与任务，根据prompt自动生成代理的自然语言行为解释，增加用户在调用、调优RL模型时的理解。

讨论（Discussion）

LLM-enhanced RL的未来潜在应用包括但不限于：

1. 机器人：利用多模态理解能力和推理能力，LLM-enhanced RL可以提升人-机器的交互效率；帮助机器人理解人类需求逻辑；提高任务决策和规划能力。

2. 自动驾驶：自动驾驶使用强化学习做复杂动态场景下的决策问题，涉及多传感器数据与道路规范、行人举止等。大模型可以帮助强化学习处理多模态信息以及设计综合奖励函数，例如安全、效率、乘客舒适度等

3. 电力系统能量管理：在能量系统中，运营者或者用户使用强化学习来高效管理多种能力的使用、转换和存储等，其中涉及高不确定性的可再生能源。大模型可以帮助设计多目标函数与提高样本利用效率。

LLM-enhanced方向的潜在机会：

1. 在强化学习方面：目前的工作都集中在通用强化学习，而针对特定强化学习分支的工作较少，包括多代理强化学习、安全强化学习、迁移强化学习和可解释强化学习等。

2. 在大模型方面：目前的工作大部分仅仅是使用prompt技术，而检索增强生成（RAG）技术和API、工具调用能力可以显著提高LLM在特定情况下的表现。

LLM-enhanced RL 的挑战：

1. 对大模型的能力依赖：大模型的能力决定了强化学习代理学习到的策略，大模型固有的偏见、幻觉等问题也会影响代理的能力。

2. 交互效率：目前大模型的计算开销较大、交互效率慢，在在线强化学习中会影响代理与环境的交互速度。

3. 道德、伦理问题：实际人-机器的应用中，大模型的道德、伦理等问题需要被认真考虑。

总结

该综述文章系统总结了大模型在辅助强化学习方面的最近研究进展，定义了LLM-enhanced RL这样一类方法，并总结了大模型在其中的四种主要角色及其方法，最后讨论了未来的潜在应用、机会与挑战，希望能给未来该方向的研究者一定启发。

1. 信息处理者：大模型为强化学习代理提取观测表征和规范语言，提高样本利用效率。

2. 奖励设计者：在复杂或无法量化的任务中，大模型利用知识和推理能力设计复杂奖励函数和生成奖励信号。

3. 决策者：大模型直接生成动作或间接生成动作建议，提高强化学习探索效率。

4. 生成者：大模型被用于：（1）作为高保真多模态世界模型减少现实世界学习成本及（2）生成代理行为的自然语言解释。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/209950.html

随机主题

两百元蓝牙降噪耳机谁更值得买？张兰曝孙子被退学，总不去上课、没人管他、不做作业美国收割阴影笼罩全球, 中国主动出击, 用黄金对抗美元霸权掌握牛头滚，轻松应对屏风马两头蛇#象棋重庆渝中区: 南纪门街道创新服务模式 “三快三及时”让“民呼我为”有精度更有温度捷途x90pro价格出来了喜讯! 叶檀说自己复查又一个120分! 网友: 希望蔡磊也有好运气!助力乡村共同富裕! 第十六届浙江一市·宁海白枇杷文化活动举行情绪时代(2)|你为何而感动: “感动”的记忆与治理汉末争霸，曹操统一北方，谋略和实力很重要，逆天的运气也是关键！《斗破》三千雷动对萧炎多重要? 堪比天阶斗技, 被风雷阁设阵追杀全新宝腾S70 R3赛车亮相, 将重返S1K耐力赛!聪明贼留下挑衅信被警察抓, 成功打脸通胀数据不及预期，英国降息的可能性正在逐渐消失 A股突发杀跌：市场绿油油的背后真相揭秘布林肯喊话伊朗“莱希遇难会让你们日子更好”, 遭到伊民众愤怒反击大批澳洲华人不知道: 回国花的钱, 居然可以找回来!俄能源部: 俄罗斯4月产量因技术原因超过配额将提交补偿计划家族荣耀之继承者：有很大可能是小三的女儿全球最大私营医械制造商, 裁员关厂欧阳夏丹: 父亲早逝母亲患癌, 34岁主持《新闻联播》, 47岁仍未婚

最新回复(0)