TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了“时间搜索”框架,以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制,显著提高了长视频理解的准确性,LVBench准确率从41.8%提升至51.5%。
🎯
关键要点
- 本研究提出了“时间搜索”框架,以解决长视频处理中的视觉幻觉问题。
- 该框架结合了聚光灯机制和反思机制,模仿人类的层次时间搜索策略。
- 通过整合时序增强帧表示,显著提高了长视频理解的准确性。
- LVBench的准确率从41.8%提升至51.5%。
➡️