本研究构建了多模态基础模型以理解自我中心视频,自动生成了700万高质量问答样本,并建立了629个视频和7026个问题的基准,以评估模型识别视觉细节的能力。提出了一种新颖的“记忆指针提示”机制,以提高模型对视频内容的理解效率。
完成下面两步后,将自动完成登录并继续当前操作。