小红花·文摘

本文探讨了通过生成预训练模型优化对象位置和形状建模的视觉先验学习，适用于多种视觉任务。研究显示在长视频理解和多模态生成中显著提升性能，并提出新框架和方法以增强视频与文本的结合效果。