视觉语言模型评估的真相: GPT-4V真实能力遥遥领先

程序员咋不秃头2024-04-01 22:28:20  63

中科大联合上海人工智能实验室,香港中文大学发表文章:《大型视觉语言模型评估:我们走在正确的道路上吗》。首次揭示当前对于视觉语言模型的真实实力评估存在的问题

大型视觉语言模型(LVLM)发展迅猛,引发了众多评估其多模态能力的研究。然而,在深入研究当前的评估工作后,研究人员发现了两个主要问题:

1. 许多样本不需要视觉内容。 答案可以直接从问题和选项中推断出来,或者从大型语言模型(LLM)嵌入的知识中推断出来。这种现象在当前的基准测试中普遍存在。例如,GeminiPro 在 MMMU 基准测试中,即使没有任何视觉输入,也能达到 42.9% 的准确率,并且在六个基准测试中的平均表现都超过了随机选择基线 20% 以上

2. LLM 和 LVLM 训练中存在无意的数据泄露。 这意味着 LLM 和 LVLM 仍然可以在没有视觉内容的情况下回答一些需要视觉信息的问题,这表明这些样本可能在大规模训练数据中被记忆了。例如,Sphinx-X-MoE 在没有访问图像的情况下,在 MMMU 上获得了 43.6% 的准确率,比其 LLM 主干高出 17.9%,甚至超过了许多可以访问图像的领先 LVLM

这两个问题都会导致对实际多模态能力的错误判断,并可能误导 LVLM 的研究方向

为了解决这些问题,研究人员提出了 MMStar,这是一个由人类精心挑选的 1500 个样本组成的、视觉不可或缺的多模态基准测试。MMStar 基准测试涵盖 6 个核心能力和 18 个详细维度,旨在用经过仔细平衡和净化的样本评估 LVLMs 的多模态能力。这些样本首先通过自动化流程从当前基准测试中进行初步筛选,然后进行人工审查,以确保每个样本都表现出视觉依赖性、最小数据泄露,并需要高级多模态能力才能解答。此外,他们还开发了两个指标来衡量数据泄露和多模态训练带来的实际性能提升

研究人员在 MMStar 上评估了 16 个领先的 LVLMs,以评估它们的多模态能力,并使用所提出的指标在 7 个基准测试上调查了它们的数据泄露和实际多模态增益

研究结果表明,高分辨率版本的 GPT-4V 以 57.1% 的准确率位居榜首,展示了其出色的多模态能力。GPT-4V 也获得了最佳的多模态增益和较小的多模态泄露,表明其多模态训练策略有效且数据泄露较少

总而言之,这项研究贡献有三方面:

深入研究了现有的评估基准和流程,并确定了两个关键问题:(1)许多样本不需要视觉内容;(2)LLM 和 LVLM 训练中存在无意的数据泄露。这两个问题都会导致对 LVLM 能力的错误判断,并可能误导后续研究

构建了 MMStar,这是一个由人类精心挑选的 1500 个挑战性样本组成的、视觉不可或缺的多模态基准测试。MMStar 涵盖了来自不同任务和难度的样本,旨在评估 LVLMs 的实际多模态能力

基于 MMStar,使用准确率和两个新提出的指标(多模态增益和多模态泄露)评估 LVLMs。高分辨率版本的 GPT-4V 优于 16 个领先的 LLM,排名第一

结语

这项工作为 LVLMs 的评估提供了新的视角和方法,并指出了未来研究方向。相信,MMStar 将成为评估 LVLMs 多模态能力的重要工具,并推动该领域的进一步发展

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/147070.html
0
随机主题
王力宏补位歌手2024王思聪骂汪峰被吐槽五十步笑百步, 都不长情, 婚恋失败也没损失美国财长耶伦: 动用俄冻结资产助乌非为选举, 七国峰会或敲定方案2024年暑期档,《封神2》缺席,《哪吒2》来袭,成龙对决谢霆锋耶伦访欧号召欧盟团结美国: 联合起来对抗中国, 否则大家都危险了多个炫富网红被封, “未曾设想的道路”不是歪门邪道cos 从零开始的异世界生活 爱蜜莉雅DNF: 23号版本拍卖现状! 最便宜“龙珠”登场, 10大道具降价经济学门类包括哪些专业“土包子”翻身记, 更新潮的燕京啤酒和年轻人做朋友!演训随时可能变实战!东部战区突然行动,毫无征兆却已包围台岛?2024年618值得入手的1000-2000元区间数码好物推荐他是公安部第三任部长, 59岁自杀, 两位公安部副部长受牵连被审查中证A50ETF规模+份额双丰收! 关于比特币ETF, 先当观众吧深蓝CEO称在电动化的浪潮下 硬派的燃油时代结束了2024年养老保险缴费15年, 在山东省退休, 养老金能领到1500元吗?英国政府意外宣布7月大选, 苏纳克目的何在?沃尔沃两款新车售价曝光! 贴牌极星徽章, 2.0T+电机, 心动吗辽宁会给出D类顶薪续约? 付豪总决赛场均16+7巅峰一季梦幻西游: 雪山A哥买物暴伤害装备, 蝗虫家族向商人霸气喊话!独行侠被狼队压制! 欧文24+1东契奇6中1, 华子13+8, 李凯尔大爆发
最新回复(0)