小红花·文摘

本研究提出了T2VTextBench，这是首个评估视频生成模型中文本准确性和时间一致性的人类评估基准。测试结果显示，大多数模型在生成清晰一致的文本方面面临显著挑战，为未来改善视频合成中的文本处理提供了研究方向。