本研究提出了VidCapBench,旨在解决视频字幕评估与文本到视频生成评估之间的关联问题。该方法结合模型标记与人工修正,评估视频的美学和内容,结果显示其优于现有方法,有效指导T2V模型的训练。
完成下面两步后,将自动完成登录并继续当前操作。