本研究构建了多模态基础模型以理解自我中心视频,自动生成了700万高质量问答样本,并建立了629个视频和7026个问题的基准,以评估模型识别视觉细节的能力。提出了一种新颖的“记忆指针提示”机制,以提高模型对视频内容的理解效率。
本研究探讨了多模态大语言模型在处理小视觉细节时的感知限制,发现其对视觉主题大小敏感。提出了一种无训练的视觉干预方法,利用模型的注意力和梯度图,显著提升了对小细节的感知能力。
本研究提出了一种文化感知文本到图像生成的迭代提示优化方法(Culture-TRIP),旨在改善模型在处理不为西方文化广泛认识的文化概念时的不足。该方法通过检索相关文化背景和视觉细节,逐步优化提示,提高生成图像与提示内容的契合度,尤其对被低估的文化名词效果显著。
完成下面两步后,将自动完成登录并继续当前操作。