量子位 ·

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

NumPro方法通过在视频帧中添加数字标识符，提升了视频大模型的时序定位能力。该方法无需训练，利用光学字符识别技术，准确关联视觉内容与时间线。实验结果表明，NumPro在多个基准测试中超越了现有最佳水平，对模型的通用理解能力影响较小。

🎯

🔎

NumPro方法通过在视频帧中添加数字标识符，巧妙地将时序定位任务转化为直观的过程。这种创新不仅提升了模型的时序理解能力，还避免了传统方法所需的复杂训练，展示了其在视频理解领域的广泛适用性。

NumPro提供了两种设置：无训练和微调。无训练设置使得模型能够快速适应新任务，而微调则在此基础上进一步提升性能。尤其在长视频数据集上，微调后的NumPro-FT表现优异，显示出灵活性与高效性的结合。

尽管NumPro在时序定位上表现出色，但在实际应用中，如何处理复杂场景中的多事件识别仍然是一个挑战。未来的研究可以集中在如何进一步提升模型在动态环境中的适应能力，以拓宽其应用范围。

❓

NumPro通过在视频帧中添加数字标识符，将视频时序定位转化为直观的“翻阅漫画”式过程，使模型能够轻松读取事件时间线。

NumPro方法无需训练，直接为每个视频帧标记对应的帧号，利用光学字符识别技术进行时序定位。

实验结果表明，NumPro在多个基准测试中超越了现有最佳水平，且对模型的通用理解能力影响较小。

NumPro-FT在与微调结合时始终优于传统微调方法，尤其在较长视频数据集上表现出色。

研究团队从字体大小、颜色和位置三个关键因素对数字的可识别性进行了精心设计优化。

NumPro适用于多种视频大语言模型，如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等。

🏷️