小红花·文摘

本文研究了基于视频的语言表示，提出了多种新方法以提高长视频中的句子定位和生成能力。通过引导模型和多模态信息，改进了时间句子定位任务，并在多个数据集上取得了优异表现。此外，提出了新的基准测试LLM4VG，评估视频对齐任务中的不同模型性能，显示出进一步优化的潜力。