给小学数学题加句废话, OpenAI o1就翻车了, 苹果新论文质疑AI推理

新浪财经2024-10-12 14:05:02  122

机器之心报道

苹果新论文:AI大模型可能不会推理。

AI大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。

这篇题为「GSM-Symbolic:UnderstandingtheLimitationsofMathematicalReasoninginLargeLanguageModels」的论文,一作是苹果机器学习研究工程师ImanMirzadeh,图灵奖得主YoshuaBengio的弟弟SamyBengio也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。

假设有一个数学问题:奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?

显然,答案是44+58+(44*2)=190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。

但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中5个比平均大小要小。奥利弗有多少个猕猴桃?

题目里加的这句话(其中5个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini给出的答案是:……在星期天,这5个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)-5(小猕猴桃)=83个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连OpenAI最新最强的o1-preview模型也无法幸免。

题目为:利亚姆想买些学习用品。他买了24块橡皮擦,现在每个售价6.75美元,10本笔记本,现在每个售价11.0美元,以及一包现在19美元的复印纸,现在售价19美元。利亚姆现在该付多少钱?假设由于通货膨胀,去年的价格便宜了10%。OpenAI的o1-preview盲目地应用了通货膨胀率,尽管通货膨胀的金额是无关紧要的,因为问题清楚地表明给出的价格是「现在」的,而不是去年的。

为什么会这样呢?为什么一个能理解问题的模型会被一个随机的、无关的细节轻易地干扰?研究人员提出,这种可靠的失败模式意味着模型根本不懂问题。它们的训练数据确实允许它们在某些情况下给出正确答案,但一旦需要稍微真正的「推理」,比如是否计算小猕猴桃,它们就开始产生奇怪、非直觉的结果。

正如研究人员在他们的论文中所说:「我们研究了这些模型中数学推理的脆弱性,并证明随着问题中子句数量的增加,它们的性能显著下降。我们假设这种下降是因为当前的LLM无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」

这一结论得到了Keras之父Fran?oisChollet和美国心理学家、认知科学家GaryMarcus的转发,他们一直对AI大模型的能力持怀疑态度。前段时间,Fran?oisChollet还发帖说,LLM通过提示使用时,无法理解与训练数据中情况大相径庭的情况,因此不具备通用智能。他认为,LLM的作用主要是作为实际AGI的知识和程序存储,它们是一种记忆形式,而智能不仅仅是记忆。如今,苹果的这篇论文为他的观点提供了支撑。

但来自OpenAI的一位研究者反驳了该论文。他指出,许多顶级的LLM实际上是聊天模型,它们被训练来处理混乱的聊天环境,需要猜测用户意图并利用所有提供的信息,即使这些信息在逻辑上并非必要。因此,当这些模型将这种行为泛化应用于数学问题时,它们的表现并不是因为缺乏推理能力,而是因为这是它们被训练遵循的预期行为。该观点还指出,人类在解决数学问题时通常有明确的上下文,而LLM在处理数学问题时可能没有这样的上下文。因此,如果通过适当的提示工程,向模型明确这是一个数学考试的环境,那么它们在添加多余子句时导致的性能下降可能会得到恢复。

还有人指出,其实这种现象在人类群体也能观察到,比如在微积分题目中添加不相关的陈述,很多大学新生也会被误导,或许人类在推理方面具有和LLM类似的局限性。

论文概述

论文标题:GSM-Symbolic:UnderstandingtheLimitationsofMathematicalReasoninginLargeLanguageModels

当前LLM能否进行真正的逻辑推理是一个重要的研究焦点。虽然一些研究突出了它们令人印象深刻的能力,但更加仔细的研究揭示了它们的根本局限。文献表明,LLM中的推理过程是概率性模式匹配,而不是形式化推理。尽管LLM能够匹配更抽象的推理模式,但它们未能达到真正的逻辑推理。

输入token的微小变化可以大幅改变模型输出,表明了强烈的tokenbias,并表明这些模型高度敏感且脆弱。此外,在需要正确选择多个token的任务中,随着涉及的token或步骤数量的增加,得到准确答案的概率呈指数级下降,这表明它们在复杂推理场景中非常不可靠。

数学推理是一项关键的认知技能,它支持许多科学和实际应用中的问题解决。OpenAI2021年提出的GSM8K(GradeSchoolMath8K)小学数学题数据集已成为评估LLM数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。这种局限性限制了对模型数学推理能力的全面洞察。此外,GSM8K的流行和普遍性可能会增加意外数据污染的风险。最后,GSM8K的静态性质不允许进行可控实验以了解模型的局限性,例如在不同条件下的行为或问题方面和难度水平的变化。

为了解决这些问题,需要一个更多样化和适应性强的评估框架——一个能够生成多样化的问题变体并调整复杂性水平以更好地探索LLM的鲁棒性和推理能力的框架。这将有助于更深入地了解这些模型在数学推理任务中的优势和劣势。作者做出了以下贡献:

为了解决这些问题,AI社区需要构建一个更加多样化且适应性更强的评估框架。这个框架要能生成多样化的问题变体,并调整复杂性水平,以便更好地探索LLM的稳健性和推理能力。

论文的主要贡献如下:

1、作者提出了GSM-Symbolic,这是一个增强的基准,它使用符号模板生成GSM8K问题的多样化变体。这使得研究者能够对LLM在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。作者对25个最先进的开放和封闭模型进行了大规模研究,为LLM在数学推理任务中的行为提供了重要的见解。

2、作者质疑了当前在GSM8K上报告的结果的可靠性,并证明LLM的性能在处理同一问题的不同表述时,其表现的波动性是不合理的。他们展示了所有模型在GSM-Symbolic上的性能下降,暗示了潜在的数据污染。

3、作者展示了LLM对表面元素(如专有名词)的变化更具稳健性,但对数值变化非常敏感。他们展示了随着子句数量的增加,模型性能会下降,方差会增加。表明LLM的推理能力在复杂性增加时会遇到困难。

4、最后,作者进一步质疑了LLM的推理能力,并引入了GSM-NoOp数据集。通过在问题中添加看似相关但最终无关的信息,作者展示了所有SOTA模型的显著性能下降(最高的可以达到65%)。

这揭示了模型在辨别相关信息以解决问题能力方面的一个关键缺陷,这可能是因为它们的推理不是常识意义上的形式化推理,而主要基于模式匹配。作者表明,即使提供了同一问题的多个示例或包含类似不相关信息的示例,LLM也难以克服GSM-NoOp带来的挑战。这表明,他们的推理过程中存在更深层次的问题,这些问题无法通过上下文样本来缓解,还需要进一步研究。

GSM-Symbolic

GSM8K数据集包含8000多个小学数学题和答案,分为7473个训练样例和1319个测试样例,题目如图1所示。

但是,由于GSM8K比较流行,因此存在数据污染的风险。

这些限制促使人们努力生成新的数据集和变体。比如iGSM是通过合成pipeline创建的数学数据集,捕获了分层和图结构中的参数依赖关系;GSM-Plus引入了GSM8K问题的变体,但缺乏符号模板,并且具有固定的大小和难度。

GSM-Symbolic的设计能够生成大量实例,并允许更精细地控制问题难度。

GSM-Symbolic:模板生成

给定来自GSM8K测试集的特定示例,作者创建了如图1(右)所示的可解析模板。标注过程包括变量、域以及必要条件,以确保问题和答案的正确性。举例来说,由于问题是小学水平的,因此一个常见的条件是可整除性,以确保答案是整数。

作者使用了常见的专有名称(例如persons,foods)来简化模板创建。创建模板后,作者还会应用自动检查来确保注释过程的正确无误。例如最终答案是否与原始问题的答案相匹配。生成数据后,还需要手动审查每个模板的10个随机样本。

实验设置

模型。作者报告了20多个不同大小的开源模型,从2B到27B不等。此外,作者还报告了最先进的闭源模型,例如GPT-4o-mini、GPT-4o、o1-mini和o1-preview。完整结果如表1。

实验及结果

当前的GSM8K结果有多可靠?

首先,作者评估了几种SOTA模型在GSM-Symbolic上的表现,通过修改变量域,可以调整样本数量和难度。如图2所示,所有模型在不同数据集上都表现出不可忽视的方差。例如,对于Gemma2-9B,最差性能和最佳性能之间的差距超过12%,而对于Phi-3.5-mini,这一差距约为15%。

另一个值得注意的观察结果是,在用作模板的100个GSM8K示例中,原始问题的性能(图2中虚线表示)通常与GSM-Symbolic性能分布中心相差一个标准差以上,通常位于分布的右侧(25个模型中有21个是这种情况)。对此的一个解释可能是数据污染,其中来自GSM8K的一些测试示例无意中出现在这些模型的训练集中,导致性能出现偏差。

图3展示了几个模型从GSM8K到GSM-Symbolic的性能下降。可以看到,对于Gemma2-9B、Phi-3、Phi-3.5和Mathstral-7B等模型,图2中的虚线位于右侧,性能下降幅度高于Llama3-8b和GPT-4o等模型,其中GSM8K上的性能接近GSM-Symbolic分布的中心,性能下降可以忽略不计。这些结果引导作者在下一节中研究LLM推理能力的脆弱性。

LLM进行数学推理有多脆弱

在上述实验中,作者观察到从相同模板生成的不同数据集之间,模型存在显著的性能波动,以及与原始GSM8K准确率相当的性能下降。这种差异表明,大型语言模型所采用的推理过程可能不是形式化的,因此容易受到某些变化的影响。

一个可能的解释是这些模型主要专注于分布内的模式匹配,即它们将给定的问题和相应的解决步骤与训练数据中遇到的类似例子对齐,因为这种方法不涉及形式推理。接下来作者进一步深入探讨了这些观察结果。

首先,作者研究了变化类型的影响,以理解更改名称(例如,人名、地点、食物、货币等)与更改数字(即变量的值)之间的差异。

图4显示,尽管性能变化仍然存在,但在更改名称时的方差比更改数字时要低。几乎所有模型的分布均值从右向左逐渐移动,方差也有所增加。作者还观察到随着变化难度的增加(从名称到数字),模型性能随之下降、方差增加,这些结果表明最先进的LLM的推理能力是脆弱的。

假设LLM没有进行形式推理,那么问题难度对性能分布的影响有多重要?我们接着往下看。

题目难度如何影响模型性能?

接下来,作者基于GSM-Symb生成了几个新模板,如图5所示。通过删除一个子句,得到GSM-Symbolic-Minus-1或简称GSM-M1。同样的,在问题中添加一个或两个子句来增加难度,分别得到GSM-Symbolic-Plus-1(GSM-P1)和GSM-Symbolic-Plus-2(GSM-P2)

如图6所示,所有模型的性能分布演变趋势非常一致:随着难度的增加,性能下降、方差增加。总体而言,模型准确率下降的速度也会随着问题难度的增加而增加。这符合模型未执行形式推理的假设,因为所需的推理步骤数量呈线性增加,但准确率下降速度似乎更快。此外,考虑到模式匹配假设,方差的增加表明,随着难度的增加,模型的搜索和模式匹配变得更加困难。

LLM真的可以理解数学概念吗?

前面部分,作者研究了变化类型和难度对模型性能分布的影响。在本节中,作者证明了模型容易在训练分布外的实例上出现灾难性的性能下降,这可能是由于它们依赖于分布模式匹配。

作者引入了GSM-NoOp,这是一个旨在挑战语言模型推理能力的数据集。作者向GSM-Symbolic模板添加了看似相关但最终无关紧要的语句。由于这些语句不具有操作意义,因此将它们称为No-Op。这些添加不会影响模型解决问题所需的推理过程。

图7展示了GSM-NoOp中的一个示例。结果表明大多数模型没有忽略这些语句,盲目地将它们转换为操作,从而导致错误。

总体而言,作者发现模型倾向于将句子转换为操作,而没有真正理解其含义。例如,作者观察到,无论上下文如何,模型都会将有关折扣的语句解释为乘法。

这引发了一个问题:这些模型是否真正充分理解了数学概念。因此,如图8a所示,所有测试模型的性能都出现了灾难性的下降,其中Phi-3-mini模型的性能下降超过65%,甚至更强大的模型(如o1-preview)也出现了显著的下降。

为了更好地理解这种性能下降,作者进行了另一个实验,结果如图8b和8c所示。

了解更多结果,请查看原论文。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1352967.html
0
最新回复(0)