AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.15-2024.07.20_业界新闻

发布时间:2024-07-29 18:02

阅读量:0

文章目录～

1.SegPoint: Segment Any Point Cloud via Large Language Model
2.Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?
3.BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models
4.Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols
5.Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction
6.Training-Free Large Model Priors for Multiple-in-One Image Restoration
7.Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
8.E5-V: Universal Embeddings with Multimodal Large Language Models
9.Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning
10.ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference
11.Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval
12.ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map
13.Multimodal Reranking for Knowledge-Intensive Visual Question Answering
14.VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation
15.Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation
16.Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models
17.Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities
18.LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction
19.VISA: Reasoning Video Object Segmentation via Large Language Models
20.Large Vision-Language Models as Emotion Recognizers in Context Awareness
21.Quantized Prompt for Efficient Generalization of Vision-Language Models
22.Learning Natural Consistency Representation for Face Forgery Video Detection
23.How and where does CLIP process negation?

1.SegPoint: Segment Any Point Cloud via Large Language Model

标题:SegPoint：通过大型语言模型分割任何点云

author:Shuting He, Henghui Ding, Xudong Jiang, Bihan Wen

publish:ECCV 2024, Project Page: https://heshuting555.github.io/SegPoint

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13761v1

摘要：
尽管在三维点云分割方面取得了重大进展，但现有方法主要针对特定任务，并依赖于显式指令来识别目标，缺乏在统一框架内推断和理解隐式用户意图的能力。在这项工作中，我们提出了一个名为 SegPoint 的模型，该模型利用多模态大语言模型（LLM）的推理能力，可在各种任务中生成按点划分的分割掩码：1）三维指令分割；2）三维指代分割；3）三维语义分割；4）三维开放词汇语义分割。为了推进三维教学研究，我们引入了一个新的基准–Instruct3D，旨在评估复杂和隐含教学文本的分段性能，其中包含 2,565 个点云-教学对。我们的实验结果表明，SegPoint 在参考分割的 ScanRefer 和语义分割的 ScanNet 等既定基准上取得了具有竞争力的性能，同时在 Instruct3D 数据集上也取得了出色的成果。据我们所知，SegPoint 是第一个在单一框架内解决这些不同分割任务并取得令人满意性能的模型。

2.Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?

标题:相似性高于事实性：我们在多模态断章取义式错误信息检测方面取得进展了吗？

author:Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13488v1

摘要：
断章取义（OOC）的错误信息给多模态事实检查带来了巨大的挑战，在这种情况下，图像会与文本配对，而文本会歪曲其原始上下文以支持错误的叙述。最近，基于证据的 OOC 检测研究呈现出一种趋势，即采用越来越复杂的架构，将 Transformers、基础模型和大型语言模型结合在一起。在本研究中，我们引入了一个简单而稳健的基线，它评估了多模态相似性（MUSE），特别是图像-文本对与外部图像和文本证据之间的相似性。我们的研究结果表明，在 NewsCLIPpings 和 VERITE 数据集上，当 MUSE 与决策树、随机森林和多层感知器等传统分类器一起使用时，可以与最先进的分类器竞争，甚至超越它们。此外，将 MUSE 集成到我们提出的 “注意中间变换器表示法”（AITR）中可显著提高性能，在 NewsCLIPpings 和 VERITE 数据集上分别提高了 3.3% 和 7.5%。然而，MUSE 的成功依赖于表面模式和捷径，而没有检查事实性和逻辑不一致性，这对我们如何定义任务、构建数据集、收集外部证据以及如何评估该领域的整体进展提出了关键问题。我们在以下网址发布我们的代码：https://github.com/stevejpapad/outcontext-misinfo-progress

3.BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

标题:BEAF：观察前-后变化以评估视觉语言模型中的幻觉

author:Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh

publish:Accepted at ECCV 2024. [Project Pages] https://beafbench.github.io/

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13442v1

摘要：
视觉语言模型（VLM）通过视觉编码器和大型语言模型（LLM）的结合来感知世界。在大规模视觉文本数据集上预先训练的视觉编码器可对视觉数据进行零误差泛化，而大语言模型则赋予视觉语言模型高度的推理能力。这使得 VLM 无需微调即可在广泛的基准测试中获得高性能，展现出零次或少数几次的能力。然而，最近的研究表明，VLM 容易产生幻觉。这种不良行为会降低可靠性和可信度，从而使用户无法完全信任 VLM 的输出结果。为了提高可信度并更好地应对 VLM 的幻觉，我们策划了一个新的评估数据集，称为 BEfore-AFter 幻觉数据集（BEAF），并引入了新的指标：真实理解度 (TU)、误解度 (IG)、误判度 (SB) 和误判度 (ID)。与之前只关注构建问题和答案的工作不同，我们的基准的主要理念是通过图像编辑模型来处理视觉场景信息，并根据场景变化来设计度量标准。这样，我们就能通过观察感知变化的能力，清楚地评估 VLM 是否正确理解了给定场景。我们还通过双轴视图（视觉和文本）将图像与对象之间的关系可视化。在使用我们的数据集对 VLM 进行评估后，我们发现我们的指标揭示了 VLM 幻觉的不同方面，而这些方面以前从未报道过。项目页面：\url{https://beafbench.github.io/}

4.Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols

标题:零点符号神经符号程序的开放世界视觉推理

author:Gertjan Burghouts, Fieke Hillerström, Erwin Walraven, Michael van Bekkum, Frank Ruis, Joris Sijs, Jelle van Mil, Judith Dijk

publish:12 pages

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13382v1

摘要：
我们考虑的问题是寻找图像中多个物体的空间配置，例如，移动检测机器人的任务是定位地板上被遗弃的工具。我们通过关系和属性的一阶逻辑来定义物体的空间配置。神经符号程序将逻辑公式与语言视觉模型通过查询符号为给定图像提供的概率对象建议相匹配。这项研究首次将神经符号编程（推理）和语言视觉模型（学习）结合起来，在开放世界环境中寻找图像中物体的空间配置。我们通过寻找地板上被遗弃的工具和漏水的管道来展示其有效性。我们发现，大多数预测错误都是由于语言视觉模型的偏差造成的。

5.Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction

标题:用知识引导的视觉语言模型感知情境并高效纠错

author:Gertjan Burghouts, Marianne Schaaphok, Michael van Bekkum, Wouter Meijer, Fieke Hillerström, Jelle van Mil

publish:15 pages

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13368v1

摘要：
移动机器人平台将越来越多地承担在开放世界环境中抓取和操纵物体的任务。情境理解为机器人提供了实现目标和执行任务的手段，例如，在未知建筑物中实现自主导航，机器人必须找到门和打开门的方法。为了获得可操作的建议，机器人需要能够区分物体之间的细微差别，因为它们可能会导致不同的动作顺序：门把手需要抓握和扭转，而手把则需要抓握和推动。在本文中，我们改进了机器人在开放世界环境中的能力感知。我们的贡献有三：(1) 我们提供了一种具有精确、可操作的承受能力的承受能力表示法；(2) 我们将这一知识库与基础视觉语言模型（VLM）相连接，并针对更多新的和未见过的物体对 VLM 进行提示；(3) 我们在 VLM 的输出上应用了人在环进行修正。负担能力表示、图像检测和人在回路中的组合对于机器人搜索物体以实现其目标非常有效。我们已经在寻找各种门和多种不同的开门方法的场景中演示了这一点。

6.Training-Free Large Model Priors for Multiple-in-One Image Restoration

标题:用于多合一图像修复的免训练大型模型先验器

author:Xuanhua He, Lang Li, Yingying Wang, Hui Zheng, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13181v1

摘要：
图像复原旨在从退化图像中重建潜在的清晰图像。尽管取得了显著成就，但现有方法主要侧重于处理特定类型的降解，因此需要专门的模型，阻碍了动态降解场景中的实际应用。为了解决这个问题，我们提出了大型模型驱动图像复原框架（LMDIR），这是一种新型的多合一图像复原范式，它利用了大型多模态语言模型（MMLM）和预训练扩散模型的通用先验。具体来说，LMDIR 整合了三个关键的先验知识：1) 来自多模态语言模型的全局退化知识；2) 由多模态语言模型生成的场景感知上下文描述；3) 由多模态语言模型描述指导的扩散模型合成的细粒度高质量参考图像。基于上述先验，我们的架构包括一个基于查询的提示编码器、注入全局降解知识的降解感知转换器块、包含场景描述的内容感知转换器块以及包含细粒度图像先验的基于参考的转换器块。这种设计便于采用单阶段训练范式来处理各种退化，同时支持自动和用户指导修复。广泛的实验证明，在多个评估基准上，我们设计的方法优于最先进的竞争对手。

7.Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

标题:金鱼视觉语言理解任意长度的视频

author:Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny

publish:25 pages, 11 figures, accepted by ECCV 2024

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12679v1

摘要：
目前大多数基于 LLM 的视频理解模型都能在几分钟内处理视频。然而，由于 "噪声和冗余 "以及 "内存和计算 "限制等挑战，它们在处理长视频时显得力不从心。在本文中，我们介绍了专为理解任意长度视频而定制的方法论–“金鱼”（Goldfish）。我们还介绍了 TVQA-long 基准，该基准专门用于评估模型在理解视觉和文本内容均有问题的长视频方面的能力。金鱼通过高效的检索机制来应对这些挑战，该机制首先收集与指令相关的前 k 个视频片段，然后再提供所需的响应。这种检索机制的设计使 "金鱼 "能够高效地处理任意长的视频序列，从而促进了它在电影或电视剧等环境中的应用。为了促进检索过程，我们开发了 MiniGPT4-Video，它能为视频片段生成详细的描述。为了解决长视频评估基准稀缺的问题，我们对 TVQA 短视频基准进行了改编，通过汇总整集视频的问题来进行扩展内容分析，从而将评估从部分内容的理解转移到整集内容的理解。我们在 TVQA 长基准上获得了 41.78% 的准确率，比以前的方法高出 14.94%。在 MSVD、MSRVTT、TGIF 和 TVQA 短视频基准测试中，我们的 MiniGPT4-Video 也分别以 3.23%、2.03%、16.5% 和 23.59% 的准确率超过了现有的先进方法。这些结果表明，我们的模型在长视频和短视频理解方面都有显著提高。我们的模型和代码已在 https://vision-cair.github.io/Goldfish_website/ 上公开发布。

8.E5-V: Universal Embeddings with Multimodal Large Language Models

标题:E5-V：多模态大语言模型的通用嵌入

author:Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang

publish:Code and models are available at https://github.com/kongds/E5-V

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12580v1

摘要：
多模态大语言模型（MLLM）在一般视觉和语言理解方面取得了可喜的进步。然而，使用多模态大语言模型表示多模态信息在很大程度上仍未得到探索。在这项工作中，我们引入了一个新框架 E5-V，旨在调整 MLLMs 以实现通用多模态嵌入。与以前的方法相比，我们的研究结果凸显了 MLLM 在表示多模态输入方面的巨大潜力。通过利用带有提示的 MLLMs，E5-V 有效地弥合了不同类型输入之间的模态差距，即使不进行微调，也能在多模态嵌入方面表现出强劲的性能。我们为 E5-V 提出了一种单一模态训练方法，即只在文本对上训练模型。与传统的图像-文本对多模态训练相比，这种方法有了显著的改进，同时将训练成本降低了约 95%。此外，这种方法还省去了成本高昂的多模态训练数据收集工作。四种任务的广泛实验证明了 E5-V 的有效性。作为一个通用的多模态模型，E5-V 在每个任务中不仅能达到而且经常能超越最先进的性能，尽管它是在单一模态上进行训练的。

9.Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning

标题:从快速学习的角度评估多模态 LLM 的语言能力

author:Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem

publish:Preprint. 33 pages, 17 Figures, 3 Tables

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12498v1

摘要：
多模态大语言模型（MLLM）的语言能力对于其在各种任务中的有效应用至关重要。本研究旨在评估多模态大型语言模型在 VALSE 基准测试中的表现，重点关注少量语境学习 (ICL) 和思维链 (CoT) 提示的功效。我们根据模型大小和预训练数据集的不同，对最先进的 MLLM 进行了全面评估。实验结果表明，ICL 和 CoT 提示大大提高了模型的性能，尤其是在需要复杂推理和上下文理解的任务中。在字幕数据集上进行预训练的模型显示出卓越的零镜头性能，而在交错图像-文本数据上进行训练的模型则受益于少镜头学习。我们的研究结果为优化 MLLMs 提供了宝贵的见解，使其能在视觉语境中更好地建立语言基础，同时强调了预训练数据组成的重要性以及少镜头学习策略在提高 MLLMs 推理能力方面的潜力。

10.ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

标题:ClearCLIP：分解 CLIP 表征，实现高密度视觉语言推理

author:Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang

publish:Accepted to ECCV 2024. code available at https://github.com/mc-
lan/ClearCLIP

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12442v1

摘要：
尽管大规模预训练视觉语言模型（VLMs），特别是 CLIP 在各种开放词汇任务中取得了成功，但将其应用于语义分割仍具有挑战性，会产生带有错误分割区域的噪声分割图。在本文中，我们对 CLIP 的结构进行了仔细的重新研究，发现残余连接是导致分割质量下降的主要噪声源。通过对不同预训练模型的残余连接和注意力输出的统计特性进行比较分析，我们发现 CLIP 的图像-文本对比训练范式强调了全局特征，而牺牲了局部可辨别性，从而导致了噪声分割结果。为此，我们提出了 ClearCLIP，一种分解 CLIP 表征以增强开放词汇语义分割的新方法。我们对最后一层进行了三个简单的修改：移除残余连接、实现自我关注和摒弃前馈网络。ClearCLIP 能够持续生成更清晰、更准确的分割图，并在多个基准测试中优于现有方法，这充分证明了我们发现的重要性。

11.Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

标题:面向跨模态图像-文本检索的对象感知查询扰动

author:Naoya Sogi, Takashi Shibata, Makoto Terao

publish:ECCV 2024

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12346v1

摘要：
预训练的视觉和语言（V/&L）模型大大提高了跨模态图像-文本检索的性能。然而，一般来说，视觉和语言模型对小物体的检索性能有限，因为单词与图像中的小物体之间的对齐比较粗糙。与此相反，众所周知，人类的认知是以物体为中心的，我们会更加关注重要的物体，即使它们很小。为了缩小人类认知与 V&L 模型能力之间的差距，我们提出了一种基于 "对象感知查询扰动 "的跨模态图像-文本检索框架。我们提出的方法为检测到的对象生成一个关键特征子空间，并利用该子空间对相应的查询进行扰动，以提高图像中的对象感知能力。在我们提出的方法中，对象感知跨模态图像-文本检索成为可能，同时无需额外微调即可保持现有 V&L 模型的丰富表达能力和检索性能。在四个公共数据集上进行的综合实验表明，我们的方法优于传统算法。

12.ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map

标题:模态合唱：通过模态融合图实现多模态嵌入的可视化探测和对齐

author:Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng

publish:Accepted by VIS 2024

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12315v1

摘要：
多模态嵌入是视觉语言模型的基础，例如 CLIP 嵌入，它是应用最广泛的文本图像嵌入。然而，这些嵌入法容易受到跨模态特征微妙错位的影响，导致模型性能下降和泛化能力减弱。为了解决这个问题，我们设计了一个交互式系统 ModalChorus，用于多模态嵌入的视觉探测和对齐。ModalChorus 主要分为两个阶段：1）使用模态融合图（MFM）进行嵌入探测，这是一种新颖的参数化降维方法，它整合了度量和非度量目标以增强模态融合；2）嵌入对齐，允许用户交互式地表达点集和集集对齐的意图。将 CLIP 嵌入与现有的降维（如 t-SNE 和 MDS）和数据融合（如数据上下文映射）方法进行定量和定性比较，证明了 MFM 在展示常见视觉语言数据集的跨模态特征方面的优势。案例研究表明，ModalChorus 可以帮助直观地发现不对齐现象，并在从零镜头分类到跨模态检索和生成等各种场景中高效地重新对齐。

13.Multimodal Reranking for Knowledge-Intensive Visual Question Answering

标题:针对知识密集型视觉问题解答的多模式重排

author:Haoyang Wen, Honglei Zhuang, Hamed Zamani, Alexander Hauptmann, Michael Bendersky

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12277v1

摘要：
知识密集型可视化问题解答要求模型能有效利用外部知识来帮助解答可视化问题。典型的管道包括知识检索器和答案生成器。然而，利用图像补丁等本地信息的检索器可能无法提供可靠的问题-候选相关性分数。此外，双塔架构也限制了检索器的相关性得分建模，无法为答案生成器推理选择最佳候选。在本文中，我们引入了一个额外的模块–多模态重排器，以提高用于生成答案的候选知识的排序质量。我们的重排模块从候选者和问题中获取多模态信息，并进行跨项交互，以更好地建立相关性得分模型。在 OK-VQA 和 A-OKVQA 上进行的实验表明，来自远距离监督的多模态重新排序器能带来持续的改进。我们还发现，在答案生成过程中，训练-测试与重排存在差异，如果训练知识候选项与测试中使用的候选项相似或更嘈杂，那么性能就会提高。

14.VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

标题:VCP-CLIP：用于零镜头异常分割的视觉上下文提示模型

author:Zhen Qu, Xian Tao, Mukesh Prasad, Fei Shen, Zhengtao Zhang, Xinyi Gong, Guiguang Ding

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12276v1

摘要：
最近，大规模视觉语言模型（如 CLIP）在零镜头异常分割（ZSAS）任务中展现出了巨大的潜力，它利用统一的模型，通过精心制作的文本提示，直接检测任何未见产品的异常情况。然而，现有方法通常假定要检测的产品类别是已知的，从而设置特定产品的文本提示，这在数据隐私场景下很难实现。此外，即使是同一类型的产品，也会因特定组件和生产工艺的不同而表现出显著差异，这给文本提示的设计带来了巨大挑战。为此，我们提出了一种基于 CLIP 的 ZSAS 任务可视化语境提示模型（VCP-CLIP）。VCP-CLIP 背后的原理是利用视觉语境提示激活 CLIP 的反常语义感知能力。具体来说，我们首先设计了一个前VCP模块，将全局视觉信息嵌入文本提示中，从而消除了特定产品提示的必要性。然后，我们提出了一个新颖的后 VCP 模块，利用图像的细粒度特征调整文本嵌入。在对 10 个实际工业异常分割数据集进行的大量实验中，VCP-CLIP 在 ZSAS 任务中取得了一流的性能。代码可在 https://github.com/xiaozhen228/VCP-CLIP 上获取。

15.Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation

标题:超越遮罩：反思少镜头分割中的引导类型

author:Shijie Chang, Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu

publish:Preprint under review

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11503v1

摘要：
现有的少帧分割（FSS）方法主要集中在原型特征生成和查询支持匹配机制上。作为生成原型特征的重要提示，支持集中的一对图像-掩膜类型已成为默认设置。然而，图像、文本、方框和遮罩等各种类型都能提供有关对象的上下文、类别、定位和形状外观等有价值的信息。现有的工作主要集中在特定的引导组合上，这导致 FSS 进入了不同的研究分支。对 FSS 中引导类型的反思有望探索支持集和查询集之间耦合的高效联合表示，从而催生弱注释或强注释引导的研究趋势，以满足实际用户的个性化需求。在这项工作中，我们提供了具有七种引导范式的广义 FSS，并开发了一个通用视觉语言框架（UniFSS），以整合来自文本、遮罩、方框和图像的提示。利用大规模预训练视觉语言模型在文本和视觉嵌入方面的优势，UniFSS 提出了高级空间校正和嵌入交互单元，以克服纯视觉匹配方法在面对类内外观多样性时通常会遇到的语义模糊弊端。大量实验表明，UniFSS 的性能明显优于最先进的方法。值得注意的是，弱注释类感知框范例甚至超过了精注释遮罩范例。

16.Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models

标题:反思性教学调整：减轻大型视觉语言模型中的幻觉

author:Jinrui Zhang, Teng Wang, Haigang Zhang, Ping Lu, Feng Zheng

publish:To appear at ECCV2024

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11422v1

摘要：
大型视觉语言模型（LVLM）在各种视觉语言任务中表现出了良好的性能。然而，它们仍然容易出现幻觉，产生与视觉内容或指令不一致的输出。虽然已经提出了各种缓解策略，但它们往往忽视了幻觉的一个关键因素：在训练过程中缺乏细粒度推理监督。如果没有中间推理步骤，模型可能会在指令和反应之间建立肤浅的捷径，无法内化固有的推理逻辑。为了应对这一挑战，我们提出了反思性指令调整，它将推理学习整合到视觉指令调整中。与以往仅从回答中学习的方法不同，我们的方法要求模型预测回答正确或错误的理由。这有助于更深入地了解每个反应背后的细粒度推理，从而提高模型的推理能力。为了促进这种方法的发展，我们提出了 REVERIE，这是第一个带有推理注释的大规模指令调整数据集。REVERIE 包含 115k 条机器生成的推理指令，每条指令都精心标注了相应的一对正确和混乱的回答，并附有全面的理由说明，阐明了每个回答正确或错误背后的理由。在多个 LVLM 基准上的实验结果表明，使用 REVERIE 数据集进行反思性指令调整后，性能比基线模型有明显提高，证明了从理由中进行反思的有效性。项目网页：https://zjr2000.github.io/projects/reverie。

17.Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

标题:学习模态无关表征，从任何模态进行语义分割

author:Xu Zheng, Yuanhuiyi Lyu, Lin Wang

publish:Accepted to ECCV 2024

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11351v1

摘要：
图像模式并不完美，因为它在某些条件下（如夜间和快速运动）经常失效。这极大地限制了现有多模态（即图像+X）语义分割方法在面对模态缺失或失效时的鲁棒性和通用性，而这在现实世界的应用中经常发生。受多模态视觉语言模型（MVLMs）开放世界学习能力的启发，我们探索了一个新方向，即通过 MVLMs 的知识提炼（KD）来学习模态无关表示法。直观地说，我们提出的 Any2Seg 是一个新颖的框架，可以在任何视觉条件下通过任何模态组合实现稳健的分割。具体来说，我们首先引入了一个新颖的语言引导语义相关性提炼（LSCD）模块，从 MVLMs（如 LanguageBind）的嵌入空间中转移模态间和模态内的语义知识。这使我们能够最大限度地缩小模态间的差距，减轻语义模糊性，从而在任何视觉条件下结合任何模态。然后，我们引入了一个模态无关的特征融合（MFF）模块，根据模态间的相关性对多模态特征进行重新加权，并选择细粒度特征。这样，我们的 Any2Seg 最终就能得到最佳的模态无关表示。在两个具有四种模态的基准上进行的广泛实验表明，Any2Seg 在多模态设置下达到了最先进水平（+3.54 mIoU），在具有挑战性的模态不完全设置下表现出色（+19.79 mIoU）。

18.LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

标题:LaMI-DETR：通过语言模型教学进行开放式词汇检测

author:Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu

publish:ECCV2024

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11335v2

摘要：
现有方法通过利用视觉语言模型（VLMs）（如 CLIP）强大的开放词汇识别能力来增强开放词汇对象检测。然而，出现了两个主要挑战：（1）概念表征不足，CLIP 文本空间中的类别名称缺乏文本和视觉知识；（2）过度拟合基础类别，在从 VLMs 到检测器的传输过程中，开放词汇知识偏向于基础类别。为了应对这些挑战，我们提出了语言模型指导（LaMI）策略，该策略利用视觉概念之间的关系，并将其应用于简单而有效的类 DETR 检测器中，称为 LaMI-DETR。LaMI 利用 GPT 构建视觉概念，并采用 T5 研究不同类别之间的视觉相似性。这些类别间的关系完善了概念表征，并避免了对基础类别的过度拟合。综合实验验证了我们的方法在同样严格的环境下，无需依赖外部训练资源，就能取得优于现有方法的性能。

19.VISA: Reasoning Video Object Segmentation via Large Language Models

标题:VISA：通过大型语言模型推理视频对象分割

author:Cilin Yan, Haochen Wang, Shilin Yan, Xiaolong Jiang, Yao Hu, Guoliang Kang, Weidi Xie, Efstratios Gavves

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11325v1

摘要：
现有的视频对象分割（VOS）依赖于明确的用户指令，如类别、遮罩或短语，这限制了它们执行需要利用世界知识进行推理的复杂视频分割的能力。在本文中，我们引入了一项新任务–推理视频对象分割（ReasonVOS）。这项任务的目的是根据隐式文本查询生成一系列分割掩码，而这些掩码需要基于世界知识和视频上下文的复杂推理能力，这对于结构化环境理解和以对象为中心的交互至关重要，是发展嵌入式人工智能的关键所在。为了解决 ReasonVOS 问题，我们引入了 VISA（基于视频的大语言指令分割助手），以利用多模态 LLM 的世界知识推理能力，同时具备利用掩码解码器分割和跟踪视频中物体的能力。此外，我们还建立了一个由来自 1,042 个不同视频的 35,074 个指令-掩码序列对组成的综合基准，该基准将复杂的世界知识推理融入到分割任务中，用于对 ReasonVOS 模型进行指令调整和评估。在 8 个数据集上进行的实验证明了 VISA 在处理视频和图像领域的复杂推理分割和虚指分割方面的有效性。代码和数据集可在 https://github.com/cilinyan/VISA 上获取。

20.Large Vision-Language Models as Emotion Recognizers in Context Awareness

标题:大型视觉语言模型作为情境感知中的情感识别器

author:Yuxuan Lei, Dingkang Yang, Zhaoyu Chen, Jiawei Chen, Peng Zhai, Lihua Zhang

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11300v1

摘要：
情境感知情感识别（CAER）是一项复杂而重要的任务，需要从各种情境线索中感知情感。以往的方法主要侧重于设计复杂的架构，从图像中提取情感线索。然而，他们的知识仅限于特定的训练数据集，可能会反映出注释者的主观情感偏差。此外，在实际应用中，获取大量标注数据往往具有挑战性。在本文中，我们从三个范例系统地探索了利用大型视觉语言模型（LVLMs）增强 CAER 任务能力的潜力：1）我们在两个 CAER 数据集上对 LVLMs 进行了微调，这是将大型模型转移到下游任务的最常见方法。2) 我们设计了零镜头和少镜头模式，以评估 LVLM 在数据有限甚至完全未见的情况下的性能。在这种情况下，我们提出了一个无需训练的框架，以充分利用 LVLM 的上下文学习（ICL）能力。具体来说，我们开发了一种基于图像相似性的排序算法来检索示例；然后，将指令、检索到的示例和测试示例结合起来，向 LVLMs 提供信息，从而获得相应的情感判断。3) 为了充分利用 LVLMs 丰富的知识库，我们在框架中加入了思维链（CoT），以增强模型的推理能力并提供可解释的结果。广泛的实验和分析表明，LVLM 在不同范式的 CAER 任务中都取得了具有竞争力的性能。值得注意的是，LVLMs 在少数情况下的优异表现表明，无需大量训练即可完成特定任务是可行的。

21.Quantized Prompt for Efficient Generalization of Vision-Language Models

标题:量化提示，实现视觉语言模型的高效泛化

author:Tianxiang Hao, Xiaohan Ding, Juexiao Feng, Yuhong Yang, Hui Chen, Guiguang Ding

publish:14 pages, 7 figures. Accepted by ECCV 2024

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10704v1

摘要：
在过去几年中，像 CLIP 这样的大规模预训练视觉语言模型在各个领域都取得了巨大成功。自然，如何将这种大规模预训练模型中的丰富知识迁移到下游任务和数据集成为一个热门话题。在下游适应过程中，最具挑战性的问题是过拟合和灾难性遗忘，这可能导致模型过度关注当前数据，而丢失更多关键的领域通用知识。现有研究使用经典的正则化技术来解决这些问题。随着解决方案变得越来越复杂，不断增长的存储和推理成本也是一个亟待解决的重要问题。在本文中，我们首先观察到适当的随机噪声可以抑制过拟合和灾难性遗忘。然后，我们将量化误差视为一种噪声，并探索了正则化视觉语言模型的量化方法，这种方法相当高效和有效。此外，为了提高模型的泛化能力，同时以最小的代价保持其特殊化能力，我们深入分析了提示语中权重分布的特点，总结出量化模块设计的几条原则，并遵循这些原则创建了几条有竞争力的基线。由于其固有的轻量级特性，所提出的方法具有明显的高效性，使其能够适用于资源极其有限的设备。我们的方法可以卓有成效地集成到许多现有方法（如 MaPLe）中，在提高准确性的同时减少存储开销，使其功能更强大，用途更广泛。在 11 个数据集上的广泛实验充分显示了我们方法的巨大优势。代码见 https://github.com/beyondhtx/QPrompt。

22.Learning Natural Consistency Representation for Face Forgery Video Detection

标题:学习自然一致性表征以进行人脸伪造视频检测

author:Daichi Zhang, Zihao Xiao, Shikun Li, Fanzhao Lin, Jianmin Li, Shiming Ge

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10550v1

摘要：
人脸伪造视频引起了社会公众的高度关注，并提出了各种检测方法。然而，全监督检测器容易导致对特定伪造方法或视频的过度拟合，而现有的自监督检测器对辅助任务要求严格，如要求音频或多模态，导致泛化和鲁棒性有限。在本文中，我们将研究能否利用纯视觉的真实人脸视频来解决这一问题。为此，我们提议以自我监督的方式学习真实人脸视频的自然一致性表征（NACO），该表征的灵感来自于这样一个观察结果：即使在未知的伪造方法和不同的扰动下，伪造视频也很难保持自然的时空一致性。我们的 NACO 首先通过 CNN 提取每帧图像的空间特征，然后将其整合到 Transformer 中学习长程时空表征，充分利用了 CNN 和 Transformer 分别在局部空间感受野和长时空记忆方面的优势。此外，还引入了空间预测模块（SPM）和时间对比模块（TCM），以增强自然一致性表征学习。空间预测模块旨在从时空表征中预测随机屏蔽的空间特征，而时空对比模块则通过洗牌自然顺序来规范时空表征的潜在距离，从而扰乱一致性，这两个模块都能迫使我们的 NACO 对自然时空一致性更加敏感。表征学习阶段结束后，对 MLP 头进行微调，以执行通常的伪造视频分类任务。广泛的实验表明，我们的方法优于其他最先进的竞争对手，具有令人印象深刻的泛化和鲁棒性。

23.How and where does CLIP process negation?

标题:CLIP 如何以及在何处处理否定？

author:Vincent Quantmeyer, Pablo Mosteiro, Albert Gatt

publish:Accepted at the 3rd Workshop on Advances in Language and Vision
Research (ALVR 2024)

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10488v1

摘要：
人们提出了各种基准来测试预训练视觉语言（VL）模型的语言理解能力。在这里，我们以 VALSE 基准（Parcalabescu 等人，2022 年）中的 "存在 "任务为基础，用它来测试模型对否定的理解，这对多模态模型来说是一个特别有趣的问题。然而，虽然这种视觉语言基准对于衡量模型性能很有用，但它们并不能揭示这些模型在这种视觉语言任务中获得输出的内部过程。我们从有关模型可解释性的不断增长的文献中汲取灵感，来解释 VL 模型在理解否定时的行为。具体来说，我们通过深入分析 CLIP（Radford 等人，2021 年）中的文本编码器来探讨这些问题，CLIP 是一种极具影响力的 VL 模型。我们定位了编码器中处理否定的部分，并分析了注意头在这项任务中的作用。我们的贡献有三方面。我们展示了语言模型可解释性文献中的方法（如因果追踪）如何转化为多模态模型和任务；我们提供了关于 CLIP 如何在 VALSE 存在任务中处理否定的具体见解；我们强调了 VALSE 数据集作为语言理解基准的固有局限性。

支持

资讯

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.15-2024.07.20

文章目录～

1.SegPoint: Segment Any Point Cloud via Large Language Model

2.Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection?

3.BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

4.Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols

5.Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction

6.Training-Free Large Model Priors for Multiple-in-One Image Restoration

7.Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

8.E5-V: Universal Embeddings with Multimodal Large Language Models

9.Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning

10.ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

11.Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

12.ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map

13.Multimodal Reranking for Knowledge-Intensive Visual Question Answering

14.VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

15.Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation

16.Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models

17.Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

18.LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

19.VISA: Reasoning Video Object Segmentation via Large Language Models

20.Large Vision-Language Models as Emotion Recognizers in Context Awareness

21.Quantized Prompt for Efficient Generalization of Vision-Language Models

22.Learning Natural Consistency Representation for Face Forgery Video Detection

23.How and where does CLIP process negation?

相关阅读