小红花·文摘 - 小红花技术领袖俱乐部

NumPro方法通过在视频帧中添加数字标识符，提升了视频大模型的时序定位能力。该方法无需训练，利用光学字符识别技术，准确关联视觉内容与时间线。实验结果表明，NumPro在多个基准测试中超越了现有最佳水平，对模型的通用理解能力影响较小。

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

量子位 ·

UniVTG框架通过统一视频时序定位的标签和任务，提高定位能力。实验证明该框架在三项任务上有效灵活。

EtC：弱监督视频定位的时序边界扩展再澄清方法（Multimodal 大型语言模型）

BriefGPT - AI 论文速递 ·