小红花·文摘

该研究提出了REVEAL框架，用于评估复杂视觉大语言模型（VLLMs）在多模态和多轮对话中的图像输入风险。研究表明，多轮交互的缺陷率高于单轮评估，尤其在处理错误信息时表现脆弱，提示需加强防御措施。

REVEAL: A Framework for Evaluating Harms of Image Inputs in Multi-turn Interactions

BriefGPT - AI 论文速递 ·

本文介绍了一种新模型，通过自动编码器和生成对抗网络生成伪OOD样本，以提升自然语言理解中的OOD检测性能。研究结合视觉模型和对话代理，提出了多模态对话的改进方法，并探索了上下文感知的意图检测框架，显著提高了F1-ODD分数。此外，评估了大型语言模型在域外意图检测中的能力，并提出了自适应原型伪标记方法，展示了在少样本场景下的有效性。

“无”很重要：多模态长对话中的分布外检测

BriefGPT - AI 论文速递 ·

本研究通过构建新数据集Surg-QA，包含102,000个外科视频-指令对，并采用两阶段问答生成管道，提高了外科视频的多模态对话能力。研究结果显示，LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型，展现出卓越的多模态对话能力。

LLaVA-Surg：通过结构化外科视频学习迈向多模态外科助手

BriefGPT - AI 论文速递 ·

本文介绍了多种跨模态学习方法，如MAD、MMA和Muffin框架，旨在提升视觉与语言模型的性能。这些方法在视觉语言任务中表现出色，尤其在指称理解和多模态对话中具有竞争力。研究者们通过新数据集和模型架构探索多模态能力的有效整合，但仍面临数据集多样性和响应真实性的挑战。

跨模态适配器：高效的多模态大型语言模型

BriefGPT - AI 论文速递 ·

本文研究了结合开放域对话代理和视觉模型的多模态对话目标，探讨了图像融合方案和域自适应预训练和微调策略。研究表明，最好的模型在多模态对话和纯文本对话方面都表现优秀。同时，还整合了安全组件，不会影响模型性能。

感知，对话，然后适应：用于开放世界视频识别的基础模型的多模态知识传递

BriefGPT - AI 论文速递 ·

本文提出了一种评估大视觉语言模型能力的方法，使用大语言模型作为评判者，构建综合的触石视觉对话数据集和整合图像注释，实现对多模态对话质量的直接评估，为大视觉语言模型的评估提供参考。

视觉 - 语言模型能否以第一人称视角思考？

BriefGPT - AI 论文速递 ·

我们提出了一种使用大视觉语言模型评估多模态对话质量的方法。通过构建综合的视觉对话数据集和图像注释，我们能够直接评估大视觉语言模型的能力，为其评估提供参考。

TouchStone: 通过语言模型评估视觉 - 语言模型

BriefGPT - AI 论文速递 ·