该研究提出了REVEAL框架,用于评估复杂视觉大语言模型(VLLMs)在多模态和多轮对话中的图像输入风险。研究表明,多轮交互的缺陷率高于单轮评估,尤其在处理错误信息时表现脆弱,提示需加强防御措施。
本文介绍了一种新模型,通过自动编码器和生成对抗网络生成伪OOD样本,以提升自然语言理解中的OOD检测性能。研究结合视觉模型和对话代理,提出了多模态对话的改进方法,并探索了上下文感知的意图检测框架,显著提高了F1-ODD分数。此外,评估了大型语言模型在域外意图检测中的能力,并提出了自适应原型伪标记方法,展示了在少样本场景下的有效性。
本研究通过构建新数据集Surg-QA,包含102,000个外科视频-指令对,并采用两阶段问答生成管道,提高了外科视频的多模态对话能力。研究结果显示,LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型,展现出卓越的多模态对话能力。
本文介绍了多种跨模态学习方法,如MAD、MMA和Muffin框架,旨在提升视觉与语言模型的性能。这些方法在视觉语言任务中表现出色,尤其在指称理解和多模态对话中具有竞争力。研究者们通过新数据集和模型架构探索多模态能力的有效整合,但仍面临数据集多样性和响应真实性的挑战。
通过融合目标检测和字符识别模型,研究改善细粒度图像理解能力。实验结果显示,改进后的多模态大型语言模型在视觉任务中表现优秀,取得了重大进展。希望进一步探索其在多模态对话方面的应用。
本文研究了结合开放域对话代理和视觉模型的多模态对话目标,探讨了图像融合方案和域自适应预训练和微调策略。研究表明,最好的模型在多模态对话和纯文本对话方面都表现优秀。同时,还整合了安全组件,不会影响模型性能。
本文提出了一种评估大视觉语言模型能力的方法,使用大语言模型作为评判者,构建综合的触石视觉对话数据集和整合图像注释,实现对多模态对话质量的直接评估,为大视觉语言模型的评估提供参考。
我们提出了一种使用大视觉语言模型评估多模态对话质量的方法。通过构建综合的视觉对话数据集和图像注释,我们能够直接评估大视觉语言模型的能力,为其评估提供参考。
完成下面两步后,将自动完成登录并继续当前操作。