本研究提出了“时间搜索”框架,以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制,显著提高了长视频理解的准确性,LVBench准确率从41.8%提升至51.5%。
本研究提出MME-CoT基准,系统评估大规模多模态模型的链式思维推理能力。通过新指标分析推理质量、鲁棒性和效率,发现反思机制能提升推理质量,但CoT提示在感知任务中可能降低表现,且LMM在自我修正阶段效率低下。此基准将推动多模态推理研究进展。
完成下面两步后,将自动完成登录并继续当前操作。