小红花·文摘

本文介绍了LongViTU，一个包含121,000个问答对和900小时视频的大规模自动生成数据集，旨在提升长视频理解能力。通过层次树结构和自我修正机制，确保数据集的高质量。研究表明，基于LongViTU的微调显著提升了视频理解模型的性能，展示了其实际应用潜力。