这就是OpenAI神秘的Q*?

虎嗅APP2024-04-23 21:04:20  57

还记得去年11月底爆出来的Q*项目吗?这是传说中OpenAI正在秘密开展、或将带来颠覆性变革的AI项目。

简而言之,Q*很可能是Q强化学习和A*搜索这两种AI方法的结合。

近日,斯坦福大学一个团队的一项新研究似乎为这一研究方向的潜力提供了佐证,其声称现在已经取得非凡成就的“语言模型不是一个奖励函数,而是一个Q函数!”由此发散思维猜想一下,也许OpenAI秘密的Q*项目或许真的是造就AGI的正确方向(或之一)。

论文标题:FromrtoQ?:YourLanguageModelisSecretlyaQ-Function

在对齐大型语言模型(LLM)与人类意图方面,最常用的方法必然是根据人类反馈的强化学习(RLHF)。通过学习基于人类标注的比较的奖励函数,RLHF能够捕获实践中难以描述的复杂目标。研究者们也在不断探索使用强化学习技术来开发训练和采样模型的新算法。尤其是直接对齐方案(比如直接偏好优化,即DPO)凭借其简洁性收获了不少拥趸。

直接对齐方法的操作不是学习奖励函数然后使用强化学习,而是在上下文多臂赌博机设置(banditsetting)中使用奖励函数与策略之间的关系来同时优化这两者。类似的思想已经被用在了视觉-语言模型和图像生成模型中。

尽管有人说这样的直接对齐方法与使用PPO等策略梯度算法的经典RLHF方法一样,但它们之间还是存在根本性差异。

举个例子,经典RLHF方法是使用终点状态下的稀疏奖励来优化token层面的价值函数。另一方面,DPO则仅在上下文多臂赌博机设置中执行操作,将整个响应当成单条臂处理。这是因为,虽然事实上token是一次性只生成一个,但研究强化学习的人都知道,密集型奖励是有益的。

尽管直接对齐算法颇引人注意,但目前人们还不清楚它们能否像经典强化学习算法那样用于序列。

为了搞清楚这一点,斯坦福这个团队近日开展了一项研究:在大型语言模型中token层面的MDP设置中,使用二元偏好反馈的常见形式推导了DPO。

他们的研究表明,DPO训练会隐含地学习到一个token层面的奖励函数,其中语言模型logit定义最优Q函数或预期的总未来奖励。然后,他们进一步表明DPO有能力在tokenMDP内灵活地建模任意可能的密集奖励函数。

这是什么意思呢?

简单来说,该团队表明可以将LLM表示成Q函数并且研究表明DPO可以将其与隐式的人类奖励对齐(根据贝尔曼方程),即在轨迹上的DPO损失。

并且他们证明这种表示可以拟合任何在轨迹上的反馈奖励,包括稀疏信号(如智能体应用)。

实验

他们也进行了实验,论证了三个可能对AI社区有用的实用见解。

第一,他们的研究表明尽管DPO是作为上下文多臂赌博机而派生出来的,但DPO模型的隐含奖励可在每个token层面上进行解释。

在实验中,他们以定性方式评估了DPO训练的模型是否能够根据轨迹反馈学习creditassignment。有一个代表性示例是商讨工作就职的场景,图1给出了两个答案。

其中左边是正确的基础摘要,右边是经过修改的版本——有更高层的职位和相应更高的工资。他们计算了这两个答案的每个token的DPO等价的奖励。图1中的每个token标注的颜色就正比于该奖励。

可以看到,模型能够成功识别对应于错误陈述的token,同时其它token的值依然相差不大,这表明模型可以执行creditassignment。

此外,还可以看到在第一个错误(250K工资)的上下文中,模型依然为其余token分配了合理的值,并识别出了第二个错误(managementposition)。这也许表明模型具备“缝合(stitching)”能力,即根据离线数据进行组合泛化的能力。该团队表示,如果事实如此,那么这一发现将有助于强化学习和RLHF在LLM中的应用

第二,研究表明对DPO模型进行似然搜索类似于现在很多研究中在解码期间搜索奖励函数。也就是说,他们证明在token层面的阐述方式下,经典的基于搜索的算法(比如MCTS)等价于在DPO策略上的基于似然的搜索。他们的实验表明,一种简单的波束搜索能为基础DPO策略带来有意义的提升,见图2。

第三,他们确定初始策略和参考分布的选择对于确定训练期间隐性奖励的轨迹非常重要。

从图3可以看出,当在DPO之前执行SFT时,被选取和被拒绝的响应的隐含奖励都会下降,但它们的差距会变大。

当然,该团队最后也表示,这些研究结果还需要更大规模的实验加以检验,他们也给出了一些值得探索的方向,包括使用DPO让LLM学会基于反馈学习推理、执行多轮对话、充当智能体、生成图像和视频等。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/316016.html
0
随机主题
米兰旧将: 德比六连败不可接受, 我在目前这支米兰能够踢上比赛003赛事预测: 乌德勒支VS鹿特丹斯巴达比赛看点解析笑疯了! 大S不接送孩子被学校劝退, 网友: 忙着捧光头, 忙着告前夫法中有情, 让家有爱, 杭州金牌律师走进浙江省女子监狱现场调解英国将建成第一座纪念LGBT(性少数群体)武装部队人员的纪念碑!G1东欧爆种, 不然想晋级都难? 森林狼绅士横扫独行侠不在话下传微软想以160亿美元收购V社 网友质疑: G胖缺你这点?中俄多个大动作落地,美债连续三个月缩减,美联储发现绷不住了乌克兰宣布参加巴黎奥运会。但对代表团提出了一个严苛的条件。升级了!博尔特空中回旋踢搞笑配音:老美对日本提供核武器,没想到竟然要收三十亿保护费皇家加勒比回应游轮漏水事故: 机械手臂误触消防洒水器 现对舞台做干燥处理苏纳克雨中公布大选日, 西装全湿透反遭嘲笑, 王室会为选首相让路增程、纯电双箭齐发!全新凯迪拉克XT5曝光,2.0T混动+贯穿大屏/尺寸加大/或于年内上市35万以上豪华车, 合资+纯电, TA就是销量冠军, 一口气攀登67名显卡的销售日期和出厂日期区别别不信, 甄子丹31年前就该火!鲁能飞翼或成夏窗离队第一人, 本赛季外租表现不俗, 曾是亚冠主力直播:解放军台岛周边联合演训最新情况里程碑! 德约2-0完胜德国悍将旗开得胜, 生日夜手捧蛋糕乐开怀
最新回复(0)