小红花·文摘

本研究提出了实例感知结构化字幕框架InstanceCap，旨在解决文本到视频生成中的信息不足和运动描绘不准确的问题。通过引入实例级字幕，该方法显著提高了生成视频的保真度和一致性，实验结果表明其在字幕与视频的高保真度方面优于之前的模型。