苹果研究揭示: 大语言模型推理能力严重缺陷

科技家的家人们2024-10-14 09:19:27  122

最近,苹果公司进行了一项关于大语言模型(LLM)推理能力的研究,引发了人们对这些模型在数学领域表现的关注。

众所周知,GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高,但研究人员对此结果的可靠性产生了质疑。因此,他们进行了大规模的研究,探讨当前最先进的开源和闭源模型的表现。

为了更好地评估模型的推理能力,研究团队引入了一种改进的基准测试 ——GSM-Symbolic。这个新基准测试使用符号模板生成多样化的问题,能够更好地控制评估过程,提供更可靠的指标。

研究发现,当问题中的数值被改变时,LLM 的表现明显出现波动。更有趣的是,随着问题中条款数量的增加,模型的表现显著下降。研究人员推测,这种表现的下降表明现有的 LLM 并不具备真正的逻辑推理能力,而是简单地模仿训练数据中的推理步骤。

在实验中,当仅增加一个看似相关的条款时,所有最先进模型的表现下降幅度高达65%。这些条款虽然与得出最终答案的推理链无关,却依然对模型的表现产生了巨大的影响。总体而言,这项研究为我们提供了对 LLM 在数学推理方面的能力和局限性的更深刻理解。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1365083.html
0
最新回复(1)