中科大联合上海人工智能实验室,香港中文大学发表文章:《大型视觉语言模型评估:我们走在正确的道路上吗》。首次揭示当前对于视觉语言模型的真实实力评估存在的问题
大型视觉语言模型(LVLM)发展迅猛,引发了众多评估其多模态能力的研究。然而,在深入研究当前的评估工作后,研究人员发现了两个主要问题:
1. 许多样本不需要视觉内容。 答案可以直接从问题和选项中推断出来,或者从大型语言模型(LLM)嵌入的知识中推断出来。这种现象在当前的基准测试中普遍存在。例如,GeminiPro 在 MMMU 基准测试中,即使没有任何视觉输入,也能达到 42.9% 的准确率,并且在六个基准测试中的平均表现都超过了随机选择基线 20% 以上
2. LLM 和 LVLM 训练中存在无意的数据泄露。 这意味着 LLM 和 LVLM 仍然可以在没有视觉内容的情况下回答一些需要视觉信息的问题,这表明这些样本可能在大规模训练数据中被记忆了。例如,Sphinx-X-MoE 在没有访问图像的情况下,在 MMMU 上获得了 43.6% 的准确率,比其 LLM 主干高出 17.9%,甚至超过了许多可以访问图像的领先 LVLM
这两个问题都会导致对实际多模态能力的错误判断,并可能误导 LVLM 的研究方向
为了解决这些问题,研究人员提出了 MMStar,这是一个由人类精心挑选的 1500 个样本组成的、视觉不可或缺的多模态基准测试。MMStar 基准测试涵盖 6 个核心能力和 18 个详细维度,旨在用经过仔细平衡和净化的样本评估 LVLMs 的多模态能力。这些样本首先通过自动化流程从当前基准测试中进行初步筛选,然后进行人工审查,以确保每个样本都表现出视觉依赖性、最小数据泄露,并需要高级多模态能力才能解答。此外,他们还开发了两个指标来衡量数据泄露和多模态训练带来的实际性能提升
研究人员在 MMStar 上评估了 16 个领先的 LVLMs,以评估它们的多模态能力,并使用所提出的指标在 7 个基准测试上调查了它们的数据泄露和实际多模态增益
研究结果表明,高分辨率版本的 GPT-4V 以 57.1% 的准确率位居榜首,展示了其出色的多模态能力。GPT-4V 也获得了最佳的多模态增益和较小的多模态泄露,表明其多模态训练策略有效且数据泄露较少
总而言之,这项研究贡献有三方面:
深入研究了现有的评估基准和流程,并确定了两个关键问题:(1)许多样本不需要视觉内容;(2)LLM 和 LVLM 训练中存在无意的数据泄露。这两个问题都会导致对 LVLM 能力的错误判断,并可能误导后续研究
构建了 MMStar,这是一个由人类精心挑选的 1500 个挑战性样本组成的、视觉不可或缺的多模态基准测试。MMStar 涵盖了来自不同任务和难度的样本,旨在评估 LVLMs 的实际多模态能力
基于 MMStar,使用准确率和两个新提出的指标(多模态增益和多模态泄露)评估 LVLMs。高分辨率版本的 GPT-4V 优于 16 个领先的 LLM,排名第一
结语
这项工作为 LVLMs 的评估提供了新的视角和方法,并指出了未来研究方向。相信,MMStar 将成为评估 LVLMs 多模态能力的重要工具,并推动该领域的进一步发展
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/147070.html