小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了“时间搜索”框架，以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制，显著提高了长视频理解的准确性，LVBench准确率从41.8%提升至51.5%。

TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding

BriefGPT - AI 论文速递 ·

本研究提出MME-CoT基准，系统评估大规模多模态模型的链式思维推理能力。通过新指标分析推理质量、鲁棒性和效率，发现反思机制能提升推理质量，但CoT提示在感知任务中可能降低表现，且LMM在自我修正阶段效率低下。此基准将推动多模态推理研究进展。

MME-CoT: A Benchmark for Chain-of-Thought in Large Multimodal Models Assessing Reasoning Quality, Robustness, and Efficiency

BriefGPT - AI 论文速递 ·