小红花·文摘

本研究提出了VidCapBench，旨在解决视频字幕评估与文本到视频生成评估之间的关联问题。该方法结合模型标记与人工修正，评估视频的美学和内容，结果显示其优于现有方法，有效指导T2V模型的训练。