小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了“时间搜索”框架，以解决长视频处理中的视觉幻觉问题。该框架结合聚光灯机制和反思机制，显著提高了长视频理解的准确性，LVBench准确率从41.8%提升至51.5%。

TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding

BriefGPT - AI 论文速递 ·

本文讨论了视觉语言模型中的视觉幻觉问题，提出了一种新方法——感知放大器（PM），通过迭代隔离相关视觉标记并放大区域，增强模型的视觉分析能力，从而提高语言生成的准确性和合理性。

Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding

BriefGPT - AI 论文速递 ·

本文提出了一种新型视觉幻觉检测系统，专注于文本到图像模型生成的卡通角色图像。该系统结合姿势感知上下文视觉学习和视觉语言模型，显著提高了识别准确性。实验结果表明，该系统在识别视觉幻觉方面的能力优于传统方法，拓展了文本到图像模型在非逼真领域的应用潜力。

应对文本到图像生成中的图像错觉问题：通过事实图像检索

BriefGPT - AI 论文速递 ·