小红花·文摘

本文研究了大型视觉语言模型（LVLM）中的对象幻觉问题，提出了一种新方法——真实引导预干预（TruthPrInt）。研究发现，LVLM的内部状态可以指示幻觉行为，不同模型在潜在子空间中表现出相似的幻觉模式。实验结果表明，TruthPrInt在多个基准测试中显著优于现有方法。

TruthPrInt：通过潜在真实引导预干预缓解大型视觉语言模型的对象幻觉

BriefGPT - AI 论文速递 ·

FlexAttention是一种增强大型视觉语言模型的方法，能够处理高分辨率图像并提高性能和效率。它通过动态选择重要区域和分层自注意机制来实现，并在多个基准测试中表现更好，减少了40%的计算成本。

FlexAttention：解决二次复杂度问题，将大型视觉语言模型的输入提升至1008 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文探讨了大型视觉语言模型（LVLMs）中的幻觉问题，并提出了Instruction Contrastive Decoding（ICD）和Visual Contrastive Decoding（VCD）等优化策略，以减少幻觉现象。研究表明，这些方法有效提升了模型的生成准确性和内容可信度，且无需额外训练数据。实验验证了这些策略在不同模型中的广泛适用性和有效性。

自省解码：减轻大型视觉语言模型的幻觉

BriefGPT - AI 论文速递 ·

本研究探讨了大型视觉语言模型（LVLMs）中的幻觉问题，提出了新的评估基准和数据集，以提高模型的准确性和可靠性。研究发现医学领域的LVLMs更易产生幻觉，并强调了模型在实际应用中的稳健性需求。同时，开发了细粒度评估指标FAITHSCORE，揭示了当前模型在生成内容时的不足，为未来改进提供了方向。

BEAF：评估视觉语言模型中的幻觉的前后变化

BriefGPT - AI 论文速递 ·

本文介绍了Med-HallMark基准，旨在提高医学多模态领域中大型视觉语言模型（LVLMs）的幻觉检测与评估。提出了MediHall Score和MediHallDetector，并分析了LVLMs中的幻觉问题，提供了缓解建议，建立了新的评估框架和数据集，以增强医疗领域语言模型的安全性和可靠性。

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

BriefGPT - AI 论文速递 ·

本文综述了大型视觉语言模型（LVLMs）中的幻觉问题，分析了幻觉的概念、症状及根本原因，评估了现有的检测和缓解方法，并提出了新的评估框架和分类法，以提高模型的可靠性，探讨未来研究方向以应对虚假生成的挑战。

多模态大型语言模型的幻觉：一项调查

BriefGPT - AI 论文速递 ·

通过综合调查分析了大型视觉语言模型（LVLMs）中的幻觉问题，包括概念、症状多样性、挑战和评估方法。研究了幻觉的原因，包括训练数据和模型组件。回顾了现有的缓解方法，并讨论了未解问题和未来研究方向。

本能偏见：虚假图像导致多语言语言模型的幻觉

BriefGPT - AI 论文速递 ·

通过综合调查，研究了大型视觉语言模型（LVLMs）中的幻觉问题，包括幻觉的概念、症状、挑战、评估方法等。分析了幻觉的根本原因，讨论了现有方法和未解问题，并提出未来研究方向。

大型视觉语言模型中的幻觉调查

BriefGPT - AI 论文速递 ·

本文介绍了MoE-tuning训练策略，解决了大型视觉语言模型的多模态学习和模型稀疏性带来的性能退化问题。实验证明，MoE-LLaVA在视觉理解方面表现出色，并在对象幻象基准测试中超越了LLaVA-1.5-13B，与LLaVA-1.5-7B相媲美。

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明，MoE-LLaVA在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B，在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA，我们旨在为稀疏LVLMs建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

LLaVA-MoLE：稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

BriefGPT - AI 论文速递 ·

GenZI是第一个零样本方法，用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识，利用自然语言描述和场景中的粗略点位置，合成场景中的3D人模型的姿态和形状。与传统方法相比，GenZI不需要捕获3D交互数据，使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。

无模板重构人物 - 物体交互与程序交互生成

BriefGPT - AI 论文速递 ·

大型视觉语言模型（LVLMs）在自然语言处理中取得成功，通过多样化的上下文配置来提高上下文学习性能，并改进对LVLM的理解。实验证明了LVLM在视觉问答（VQA）中的性能改善。

如何建立适合上下文内的序列用于视觉问答

BriefGPT - AI 论文速递 ·

GenZI是一种零样本方法，用于生成3D人与场景的交互。它利用大型视觉-语言模型从二维人-场景组合的语义空间中提取交互先验知识，并通过迭代优化过程合成场景中的3D人模型的姿态和形状。与传统方法相比，GenZI不需要捕获3D交互数据，可以通过简单的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。