小红花·文摘

本文介绍了一种新颖的视觉问答数据集，通过全景佩戴式摄像头拍摄视频，解决视觉障碍者面临的信息获取、导航和社交互动障碍。数据集同时解决多个现实生活中的障碍，但AI辅助服务仍未达到满意性能水平。评估突出了360度摄像头拍摄的视频的特点和情境的独特特征。

ESIQA：基于 Vision-Pro 的自中心空间图像的感知质量评估

BriefGPT - AI 论文速递 ·

基于多模态大型语言模型（MLLMs）的进展引起了对基于 LLM 的自动驾驶代理的兴趣。研究提出了一个全面框架，用于代理模型和 3D 驾驶任务之间的强力对齐。提出了 OmniDrive-nuScenes，一个新的视觉问答数据集，挑战模型在真实的 3D 情境中的全面视觉问答任务。研究结果显示了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。

OmAgent: 复杂视频理解的多模态代理框架与任务分割

BriefGPT - AI 论文速递 ·