复旦字节强强联手, 量身定制多模态思维链, 让7B模型超越GPT-4V

科技有夕小瑶2024-06-12 20:14:08 89

多模态大模型在不同的任务中表现出了令人印象深刻的能力，但是在处理复杂任务时，模型的性能仍然受到了单步推理范式的限制。为此，复旦团队联合字节跳动提出了 VoCoT，这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。

VoCoT 具有两个关键特征：（1）以对象为中心的推理路径，围绕跨模态共享的对象级信息展开，以及（2）以多模态交叉和对齐的方式对对象概念进行视觉上的表征，有效地弥合了 LMM 在长文本过程中的模态差异。

通过将 VoCoT 引入流行的开源 LMM 架构中，研究人员引入了多模态大模型 VolCano。在仅有 7B 个参数和有限的输入分辨率的条件下，VolCano 在各种场景下都表现出了优异的性能，在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。

论文标题：VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models

论文链接：https://arxiv.org/abs/2405.16919

3.5研究测试：

hujiaoai.cn

4研究测试：

askmanyai.cn

Claude-3研究测试：

hiclaude3.com

背景与挑战

思维链 (CoT) 是一种提高大模型推理能力的方法，通过允许模型将复杂问题分解成需要较少步骤的简单子任务，可以有效增强模型解决问题的能力。

▲图 1. 比较 LMM 中不同推理范式的示例。 (a) 需要复杂推理的视觉问题。 (b) 为解决问题而构建的以对象为中心的概念推理路径。 (c) GPT-4V 和拟议的 VolCano 的输出。 GPT-4V 的输出中包含幻觉。 VoCalno 以 VoCoT 格式执行多步推理。关键对象会突出显示，颜色表示对象描述与图像中接地对象之间的对应关系。 “box”表示所提到的对象的边界框坐标。

如图1所示，想要正确回答问题需要分析多个对象的动作和关系，并逐步推理，这在 LLM 的单步预测中几乎不可能完成。此外，直接生成答案的范式模糊了解决问题的过程，这降低了模型输出的可解释性。

尽管涉及多步推理的思路链范式已在 LLM 中得到广泛探索，但是在多模态的复杂语境下，仍然面临许多的挑战：

难以在多模态语境中整合推理锚点。文本大模型主要从语境中提取实体等关键信息作为锚点，并围绕这些锚点进行多步推理。而在多模态语境中，锚点信息需要作为图像和文本之间共享的概念，并在两种模态之间建立联系。现有的工作尝试在图像中引入锚点信息，例如分割图和点阵，这需要 LMM 具有很强的能力来理解这些信息。

LMM 可能无法将文本描述与相应的视觉信息对齐，从而导致生成错误的信息。例如，GPT-4V 错误地将目标人物与图1中的服务员联系起来，因此输出了错误的推理结果。

什么是 VoCoT ？

VOCOT 与文本 CoT类似，主要以文本形式表达其推理逻辑。然而，多模态上下文和纯文本上下文之间存在着明显的差距。

为了在多模态上下文中构建有效可靠的推理路径，该研究用两个特征来描述 VoCoT：（1）以对象为中心。对象是图像中的基本语义单元，可以作为锚点来建立多模态上下文信息之间的联系。因此，VoCoT需要包含重要对象，然后进行相关信息的提取和分析。（2）以视觉为基础。VoCoT中包含的关键对象应该用“<文本描述，坐标，视觉对象表示>”的三元组来表示，坐标表示图像中的基础对象，而视觉表示是该对象的特征，有助于增强推理路径中的跨模态相关性。

构建VoCoT 格式的数据

作者使用以下三种类型的数据源，构建了 VoCoT-Instruct-80K 数据集，分别包括 72K、6K 和 2K 个样本：

GQA（Generalized Question Answering）数据集。GQA 是一个包含结构化信息的 VQA（Visual Question Answering）数据集，每张图片都与一个场景图相对应，并且为每个 VQA 对提供了在相应场景图上类似 SQL 的推理路径。作者使用基于规则的方法将 SQL-like 的查询语句和答案转换成连贯完整的文字推理思路。同时，还利用了 GQA 数据源中的物体边界框来补充在文字推理思路中出现的对象信息。

基于 VQA 的数据。在问答过程中插入多步骤的推理过程来补充 VQA 数据，并借助 GPT-4V 根据图片、问题、答案和图片中的物体信息生成推理思路。通过在上下文学习中控制输出格式，可以确保生成的推理思路符合要求。为了确保复杂推理问题的抽样，作者从 LLaVA-Instruct 的复杂推理问题中选择了一部分数据作为源数据。

仅图片数据。虽然前两种构建方式很有效，但生成的数据仅限于现有的问题。为了丰富问题和推理逻辑，作者利用 GPT-4V 强大的生成能力扩展了构建的数据集。通过提供图片和物体信息，要求 GPT-4V 生成复杂的问题，并生成符合 VoCoT 格式的推理路径和答案。为了确保输出格式的正确性，作者还加入了上下文样本，并选择了 LVIS（Large Vocabulary Instance Segmentation）作为数据源。

擅长 VoCoT 推理的 VolCano 模型

基于 VoCoT 框架和构建的数据集 VoCoT-Instruct-80K，作者开发了 VolCano，这是一种基于视觉的多模态思维链推理模型。VolCano 具有 7B 参数规模，支持 336 ?? 336 的输入分辨率，在需要复杂推理和组合能力的各种基准测试中超过了GPT-4V。

▲图 2：VolCano 框架的图示。蓝色和绿色圆角矩形分别代表文本和视觉token。特殊token“[c]”和“[/c]”表示坐标的开始和结束（图中为“[coor.]”）。坐标以文本表示。在输出中，通过在图像中绘制相应的框来可视化坐标，以更好地进行说明。RefBind 使用图像特征和预测坐标来计算对象的视觉表示。

多模态序列的表征

VolCano将图像文本数据表示为交错的视觉和文本token序列。文本输入经过分词和嵌入层进行表示。图像和物体可以出现在序列的任何位置，并由视觉token表示。图像通过视觉编码器进行编码，并被展平成一维的视觉token序列。连接模块则是将视觉token与嵌入文本token映射到相同的维度。

每个物体都以视觉相关的形式进行表示：" {文本描述} [c] {坐标} [/c] {视觉表示}", 例如，"dog [c] "。"[c]"和"[/c]"是特殊token，表示坐标的起始和结束。作者使用边界框作为物体的坐标，和在图像大小的范围内归一化到0和1之间。

RefBind 机制

除了文本和坐标，物体的特征（例如）被用以帮助模型引用图像中相应的视觉信息。

一种直接将物体特征输入模型的方式是：先裁剪图像中的相应区域，再使用视觉编码器对每个子图像进行编码。但是，这种方法会带来额外的计算成本，并且会丢失完整图像的上下文信息，就像早期的目标检测方法一样。

为了解决上述问题，作者提出了 RefBind 机制。通过RefBind机制，可以基于坐标和图像token获取物体的视觉token。

一旦在输入或生成的序列中检测到坐标结束token "[/c]"，就会激活 RefBind 机制，从而基于"[c]"和"[/c]"之间的坐标来获取物体token，并将其添加在"[/c]"token之后，使模型获得坐标位置处的物体信息。

▲图 3. RefBind 机制。

优化目标

训练目标 VolCano 的训练目标统一为因果建模损失：

其中是数据集中的构造序列，是模型建模的概率分布，表示模型的参数。对于每个序列，表示需要预测的token集合。在实践中，只包含文本token，包括特殊token、坐标和自然文本。在预训练时，所有的文本token都包含在中，而在指令微调中，只有回答部分的token被考虑在中。

实验结果

作者在通用视觉问答、视觉空间推理、幻觉任务、多模态组合逻辑任务上进行了实验，对比了现有的基于单步推理的视觉语言多模态大模型，包括BLIP-2、InstructBLIP、Shikra、mPLUG-Owl2、MiniGPTv2、Qwen-VL-Chat和LLaVA-1.5等。此外，作者还对比了输入多张图像输入的 SOTA 模型，如LLaVA-1.6、Deepseek-VL和Monkey等，并构建了一个单步推理基线模型 VolCano-SE作为对比。

▲表 2: 与SOTA LLM 在10个基准上的比较。

VolCano在单图像输入的模型中表现出色：在大多数数据集中，VolCano 相比其它的单图像输入模型要表现最好，在复杂任务中表现则更为出色。

引入VoCoT有效缓解幻觉问题：相比于Zero-Shot CoT、Text CoT、Coor. CoT和Sub-Img CoT等格式的 CoT （表.3），作者认为 VoCoT 是最合适的格式，它能够有效地处理多步推理、减少幻觉，并在各种任务中提高性能。

多步推理带来的优势要优于高分辨率输入：在需要复杂推理的任务中，对比支持高分辨率输入的 LMM，VolCano能够获得相当或者更佳的性能，表明引入多步推理比输入高分辨率图像具有优势。

▲表.3: 不同CoT格式之间的比较。“Obj-Format”列表示对象的表示格式。T, C, S 和 R 分别是文本，坐标，子图像，RefBind的缩写。

不同数据类型的影响

作者也对 VoCoT-Instruct-80K 中三种数据类型的作用进行了探索，发现仅使用类型1（基于GQA的数据）的情况下，模型在精确性方面表现出色，但在多样性方面受限。此时训练的模型产生的幻觉最少，但难以处理多样化的问题。

而类型2和类型3数据可以有效地帮助模型在各种指示中泛化。但是，这不意味着可能直接删除类型1的数据，因为这会增加幻觉的风险。

▲表.4 对 VoCoT-Instruct-80K 的数据类型进行消融。

VoCoT 有助于提高复杂推理能力

作者比较了CLEVR中 VolCano-SE 和 VolCano 在不同难度问题上的表现。根据拟合曲线和置信区间，可以明显看出，随着所需推理步骤的增加，多步骤推理的优势变得更加明显。

强大的基础能力

作者采用了RefCOCOg和CLEVR-Ref中的指代表达任务来评估模型的视觉基础能力。从表5可以观察到，输入分辨率较低的VolCano在RefCOCOg上表现出了相对较好的性能。而在跨领域的数据集CLEVR-Ref上，VolCano明显优于其他模型。这些结果表明VolCano具有强大且可推广的基础能力。

▲表.5

VolCano的推理能力

作者将多模态大模型的推理过程分为分析和判断两个子过程。其中分析过程用于构建推理路径，而判断过程则提供结论。

在VSR实验中，VolCano充当分析器，提供基于推理路径的结论，这些结论由不同的判断者进行判断。根据表6的结果显示，一个更强大的判断模型可以更有效地利用VolCano生成的推理路径。当将VolCano用作分析器，将GPT-4用作判断者时，性能甚至超过了GPT-4V，两者之间的准确率甚至相差5.56%。

这表明VoCalno具有提供有效推理路径的能力，但其判断能力有限。此外，可以观察到VolCano的判断能力主要受限于骨干结构。总的来说，实验强调了语言骨干的重要性，并揭示了进一步将VoCoT应用于更强大LLM骨干的潜力。

总结

复旦团队提出了一种名为VoCoT的基于视觉的、以对象为中心的一种思维链格式，旨在辅助多模态大模型进行多步推理。此外，作者还提出了一种从现有资源构建VoCoT格式数据的流程，从而创建了VoCoT-Instruct-80K数据集。同时，基于此开发的VolCano模型在各项基准测试中展现了非常强劲的性能，在 7B 参数规模下，即使只使用了有限的输入分辨率，在需要复杂推理的任务中也超越了 SOTA 模型，包括 GPT-4V。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/741660.html

随机主题

F1伊莫拉站赛后点评迈凯伦挑战红牛所以你人生的第一台外设应该是？创新药「烧钱一哥」看到盈利曙光?福特EVOS命名为蒙迪欧运动版, 官图发布, 搭载2.0T混动系统张鹤伦被郭德纲拒绝3回, 如果不是师娘帮助, 可能还在做保安 NBA巨星东契奇: 迈向历史最大顶薪合同之路 “钱江源”点亮“直播之光” 阿里公益在开化开设数字人才基地多功能跨界自动挡弯梁ADV——力腾190, 正式命名为军刀并开始盲定地球班往事: 苏联解体时, 俄罗斯继承了1000亿债权, 要回来多少?黟县坚持“五个到位”抓好困难退役军人帮扶援助工作老头杯最强三费诞生! 无脑四保一害惨Uzi, lwx被最菜下路线杀三次 1962年投资1000万美元，真实装备与军人协助拍摄，被封为二战电影封神之作！止损不是目的，进场的确定性远比止损重要乌克兰败局已定，美国急着让中国背锅，耿爽大使当面甩回四个大字发行超长期国债的有意和其深度的影响 2023年质量上乘的10部网大电影, 部部有惊喜, 你看了几部?“摇滚教父”汪峰：音乐学院的高材生，竟被高中毕业的选手给碾压上海海港豪华攻击潜藏7+1小于7隐患, 徐正源敢让甘超1换1奥斯卡?5月24日地狱火重燃! 168碎片新选择, 廉颇黄金金牛座来袭小白用户能不能买卡贴机辽宁会给出D类顶薪续约? 付豪总决赛场均16+7巅峰一季

最新回复(0)