本研究提出了“时间搜索”框架,以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制,显著提高了长视频理解的准确性,LVBench准确率从41.8%提升至51.5%。
本文讨论了视觉语言模型中的视觉幻觉问题,提出了一种新方法——感知放大器(PM),通过迭代隔离相关视觉标记并放大区域,增强模型的视觉分析能力,从而提高语言生成的准确性和合理性。
本研究提出VHExpansion方法,通过自动扰动问题、答案和修改图像,扩展多模态大型语言模型的视觉幻觉测试用例。引入对称精度评估指标,解决传统精度在不平衡测试中的偏差。实验显示,微调模型在扩展数据集上能更有效减少视觉幻觉现象。
完成下面两步后,将自动完成登录并继续当前操作。