TEMPO:通过难度调度和预训练 Align 来优化视频大语言模型的时间偏好
📝
内容提要
本研究针对视频大语言模型(Video LLMs)在时间推理方面的局限性,提出了一种系统框架TEMPO(时间偏好优化),通过直接偏好优化(DPO)来增强其时间推理能力。我们引入了一种自动化的偏好数据生成管道,系统性地构建偏好对,并通过丰富的时间信息视频的选择来优化模型,从而显著提升了视频大语言模型的性能。
➡️