小红花·文摘

本研究提出了一种名为ViaRL的新框架，通过基于规则的强化学习优化视频理解中的帧选择，解决了缺乏有效训练信号的问题。ViaRL采用迭代放大策略进行循环训练，无需昂贵标注，显著提升了时间定位性能，特别是在Needle QA任务上提升近15%。