本研究提出了一种名为ViaRL的新框架,通过基于规则的强化学习优化视频理解中的帧选择,解决了缺乏有效训练信号的问题。ViaRL采用迭代放大策略进行循环训练,无需昂贵标注,显著提升了时间定位性能,特别是在Needle QA任务上提升近15%。
本研究提出了一种时间标记器,解决了视频语言模型在时间定位上的不足。通过引入时间分隔符和AnyLength机制,适应不同长度的视频,评估结果显示其在视频理解中的优异表现。
完成下面两步后,将自动完成登录并继续当前操作。