本研究构建了多模态基础模型以理解自我中心视频,自动生成了700万高质量问答样本,并建立了629个视频和7026个问题的基准,以评估模型识别视觉细节的能力。提出了一种新颖的“记忆指针提示”机制,以提高模型对视频内容的理解效率。
本研究探讨了多模态大语言模型在处理小视觉细节时的感知限制,发现其对视觉主题大小敏感。提出了一种无训练的视觉干预方法,利用模型的注意力和梯度图,显著提升了对小细节的感知能力。
完成下面两步后,将自动完成登录并继续当前操作。