小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种名为ViaRL的新框架，通过基于规则的强化学习优化视频理解中的帧选择，解决了缺乏有效训练信号的问题。ViaRL采用迭代放大策略进行循环训练，无需昂贵标注，显著提升了时间定位性能，特别是在Needle QA任务上提升近15%。

ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了帧选择增强生成（FRAG）方法，旨在提高长视频和长文档的理解能力。FRAG通过独立评估每帧的相关性，能够在无需处理长上下文的情况下生成输出，从而显著提升现有多模态模型的表现。

FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

BriefGPT - AI 论文速递 ·

本研究分析了视频多模态大语言模型在视觉上下文表示上的不足。通过将任务转化为约束优化问题，研究了帧和标记选择对性能的影响。结果显示，提出的方法与实验结果一致，具有应用潜力。

探索视频中的视觉上下文表示设计空间

BriefGPT - AI 论文速递 ·