多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。为此,复旦团队联合字节跳动提出了 VoCoT,这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。
VoCoT 具有两个关键特征:(1)以对象为中心的推理路径,围绕跨模态共享的对象级信息展开,以及(2)以多模态交叉和对齐的方式对对象概念进行视觉上的表征,有效地弥合了 LMM 在长文本过程中的模态差异。
通过将 VoCoT 引入流行的开源 LMM 架构中,研究人员引入了多模态大模型 VolCano。 在仅有 7B 个参数和有限的输入分辨率的条件下,VolCano 在各种场景下都表现出了优异的性能,在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。
论文标题:VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
论文链接:https://arxiv.org/abs/2405.16919
3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com
背景与挑战
思维链 (CoT) 是一种提高大模型推理能力的方法,通过允许模型将复杂问题分解成需要较少步骤的简单子任务,可以有效增强模型解决问题的能力。
▲图 1. 比较 LMM 中不同推理范式的示例。 (a) 需要复杂推理的视觉问题。 (b) 为解决问题而构建的以对象为中心的概念推理路径。 (c) GPT-4V 和拟议的 VolCano 的输出。 GPT-4V 的输出中包含幻觉。 VoCalno 以 VoCoT 格式执行多步推理。关键对象会突出显示,颜色表示对象描述与图像中接地对象之间的对应关系。 “box”表示所提到的对象的边界框坐标。
如图1所示,想要正确回答问题需要分析多个对象的动作和关系,并逐步推理,这在 LLM 的单步预测中几乎不可能完成。此外,直接生成答案的范式模糊了解决问题的过程,这降低了模型输出的可解释性。
尽管涉及多步推理的思路链范式已在 LLM 中得到广泛探索,但是在多模态的复杂语境下,仍然面临许多的挑战:
难以在多模态语境中整合推理锚点。文本大模型主要从语境中提取实体等关键信息作为锚点,并围绕这些锚点进行多步推理。而在多模态语境中,锚点信息需要作为图像和文本之间共享的概念,并在两种模态之间建立联系。现有的工作尝试在图像中引入锚点信息,例如分割图和点阵,这需要 LMM 具有很强的能力来理解这些信息。
LMM 可能无法将文本描述与相应的视觉信息对齐,从而导致生成错误的信息。例如,GPT-4V 错误地将目标人物与图1中的服务员联系起来,因此输出了错误的推理结果。
什么是 VoCoT ?
VOCOT 与文本 CoT类似,主要以文本形式表达其推理逻辑。然而,多模态上下文和纯文本上下文之间存在着明显的差距。
为了在多模态上下文中构建有效可靠的推理路径,该研究用两个特征来描述 VoCoT: (1)以对象为中心。对象是图像中的基本语义单元,可以作为锚点来建立多模态上下文信息之间的联系。因此,VoCoT需要包含重要对象,然后进行相关信息的提取和分析。 (2)以视觉为基础。VoCoT中包含的关键对象应该用“<文本描述,坐标,视觉对象表示>”的三元组来表示,坐标表示图像中的基础对象,而视觉表示是该对象的特征,有助于增强推理路径中的跨模态相关性。
构建VoCoT 格式的数据
作者使用以下三种类型的数据源,构建了 VoCoT-Instruct-80K 数据集,分别包括 72K、6K 和 2K 个样本:
GQA(Generalized Question Answering)数据集。GQA 是一个包含结构化信息的 VQA(Visual Question Answering)数据集,每张图片都与一个场景图相对应,并且为每个 VQA 对提供了在相应场景图上类似 SQL 的推理路径。作者使用基于规则的方法将 SQL-like 的查询语句和答案转换成连贯完整的文字推理思路。同时,还利用了 GQA 数据源中的物体边界框来补充在文字推理思路中出现的对象信息。
基于 VQA 的数据。在问答过程中插入多步骤的推理过程来补充 VQA 数据,并借助 GPT-4V 根据图片、问题、答案和图片中的物体信息生成推理思路。通过在上下文学习中控制输出格式,可以确保生成的推理思路符合要求。为了确保复杂推理问题的抽样,作者从 LLaVA-Instruct 的复杂推理问题中选择了一部分数据作为源数据。
仅图片数据。虽然前两种构建方式很有效,但生成的数据仅限于现有的问题。为了丰富问题和推理逻辑,作者利用 GPT-4V 强大的生成能力扩展了构建的数据集。通过提供图片和物体信息,要求 GPT-4V 生成复杂的问题,并生成符合 VoCoT 格式的推理路径和答案。为了确保输出格式的正确性,作者还加入了上下文样本,并选择了 LVIS(Large Vocabulary Instance Segmentation)作为数据源。
擅长 VoCoT 推理的 VolCano 模型
基于 VoCoT 框架和构建的数据集 VoCoT-Instruct-80K,作者开发了 VolCano,这是一种基于视觉的多模态思维链推理模型。VolCano 具有 7B 参数规模,支持 336 ?? 336 的输入分辨率,在需要复杂推理和组合能力的各种基准测试中超过了GPT-4V。
▲图 2:VolCano 框架的图示。蓝色和绿色圆角矩形分别代表文本和视觉token。特殊token“[c]”和“[/c]”表示坐标的开始和结束(图中为“[coor.]”)。坐标以文本表示。在输出中,通过在图像中绘制相应的框来可视化坐标,以更好地进行说明。RefBind 使用图像特征和预测坐标来计算对象的视觉表示。
多模态序列的表征
VolCano将图像文本数据表示为交错的视觉和文本token序列。文本输入经过分词和嵌入层进行表示。图像和物体可以出现在序列的任何位置,并由视觉token表示。图像通过视觉编码器进行编码,并被展平成一维的视觉token序列。连接模块则是将视觉token与嵌入文本token映射到相同的维度。
每个物体都以视觉相关的形式进行表示:" {文本描述} [c] {坐标} [/c] {视觉表示}", 例如,"dog [c] "。"[c]"和"[/c]"是特殊token,表示坐标的起始和结束。作者使用边界框 作为物体的坐标, 和 在图像大小的范围内归一化到0和1之间。
RefBind 机制
除了文本和坐标,物体的特征(例如 )被用以帮助模型引用图像中相应的视觉信息。
一种直接将物体特征输入模型的方式是:先裁剪图像中的相应区域,再使用视觉编码器对每个子图像进行编码。但是,这种方法会带来额外的计算成本,并且会丢失完整图像的上下文信息,就像早期的目标检测方法一样。
为了解决上述问题,作者提出了 RefBind 机制。通过RefBind机制,可以基于坐标和图像token获取物体的视觉token。
一旦在输入或生成的序列中检测到坐标结束token "[/c]",就会激活 RefBind 机制,从而基于"[c]"和"[/c]"之间的坐标来获取物体token,并将其添加在"[/c]"token之后,使模型获得坐标位置处的物体信息。
▲图 3. RefBind 机制。
优化目标
训练目标 VolCano 的训练目标统一为因果建模损失:
其中 是数据集 中的构造序列, 是模型建模的概率分布,表示模型的参数。对于每个序列 , 表示需要预测的token集合。在实践中,只包含文本token,包括特殊token、坐标和自然文本。在预训练时,所有的文本token都包含在 中,而在指令微调中,只有回答部分的token被考虑在 中。
实验结果
作者在通用视觉问答、视觉空间推理、幻觉任务、多模态组合逻辑任务上进行了实验,对比了现有的基于单步推理的视觉语言多模态大模型,包括BLIP-2、InstructBLIP、Shikra、mPLUG-Owl2、MiniGPTv2、Qwen-VL-Chat和LLaVA-1.5等。此外,作者还对比了输入多张图像输入的 SOTA 模型,如LLaVA-1.6、Deepseek-VL和Monkey等,并构建了一个单步推理基线模型 VolCano-SE作为对比。
▲表 2: 与SOTA LLM 在10个基准上的比较。
VolCano在单图像输入的模型中表现出色:在大多数数据集中,VolCano 相比其它的单图像输入模型要表现最好,在复杂任务中表现则更为出色。
引入VoCoT有效缓解幻觉问题:相比于Zero-Shot CoT、Text CoT、Coor. CoT和Sub-Img CoT等格式的 CoT (表.3),作者认为 VoCoT 是最合适的格式,它能够有效地处理多步推理、减少幻觉,并在各种任务中提高性能。
多步推理带来的优势要优于高分辨率输入:在需要复杂推理的任务中,对比支持高分辨率输入的 LMM,VolCano能够获得相当或者更佳的性能,表明引入多步推理比输入高分辨率图像具有优势。
▲表.3: 不同CoT格式之间的比较。“Obj-Format”列表示对象的表示格式。T, C, S 和 R 分别是文本,坐标,子图像,RefBind的缩写。
不同数据类型的影响
作者也对 VoCoT-Instruct-80K 中三种数据类型的作用进行了探索,发现仅使用类型1(基于GQA的数据)的情况下,模型在精确性方面表现出色,但在多样性方面受限。此时训练的模型产生的幻觉最少,但难以处理多样化的问题。
而类型2和类型3数据可以有效地帮助模型在各种指示中泛化。但是,这不意味着可能直接删除类型1的数据,因为这会增加幻觉的风险。
▲表.4 对 VoCoT-Instruct-80K 的数据类型进行消融。
VoCoT 有助于提高复杂推理能力
作者比较了CLEVR中 VolCano-SE 和 VolCano 在不同难度问题上的表现。根据拟合曲线和置信区间,可以明显看出,随着所需推理步骤的增加,多步骤推理的优势变得更加明显。
强大的基础能力
作者采用了RefCOCOg和CLEVR-Ref中的指代表达任务来评估模型的视觉基础能力。从表5可以观察到,输入分辨率较低的VolCano在RefCOCOg上表现出了相对较好的性能。而在跨领域的数据集CLEVR-Ref上,VolCano明显优于其他模型。这些结果表明VolCano具有强大且可推广的基础能力。
▲表.5
VolCano的推理能力
作者将多模态大模型的推理过程分为分析和判断两个子过程。其中分析过程用于构建推理路径,而判断过程则提供结论。
在VSR实验中,VolCano充当分析器,提供基于推理路径的结论,这些结论由不同的判断者进行判断。根据表6的结果显示,一个更强大的判断模型可以更有效地利用VolCano生成的推理路径。当将VolCano用作分析器,将GPT-4用作判断者时,性能甚至超过了GPT-4V,两者之间的准确率甚至相差5.56%。
这表明VoCalno具有提供有效推理路径的能力,但其判断能力有限。此外,可以观察到VolCano的判断能力主要受限于骨干结构。总的来说,实验强调了语言骨干的重要性,并揭示了进一步将VoCoT应用于更强大LLM骨干的潜力。
总结
复旦团队提出了一种名为VoCoT的基于视觉的、以对象为中心的一种思维链格式,旨在辅助多模态大模型进行多步推理。此外,作者还提出了一种从现有资源构建VoCoT格式数据的流程,从而创建了VoCoT-Instruct-80K数据集。同时,基于此开发的VolCano模型在各项基准测试中展现了非常强劲的性能,在 7B 参数规模下,即使只使用了有限的输入分辨率,在需要复杂推理的任务中也超越了 SOTA 模型,包括 GPT-4V。