小红花·文摘

本研究将视频时间定位任务转化为时间精炼任务，从而提高了时间戳的准确性。通过引入辅助预测头，增强了模型的时间感知能力。TimeRefine在ActivityNet和Charades-STA数据集上表现显著提升。

Temporal Refinement: Video Large Language Model for Time Localization Based on Time Refinement

BriefGPT - AI 论文速递 ·

本文介绍了一种基于常识感知的跨模态对齐框架，旨在提高视频时间定位的精确度和效率。该方法通过结构化语义信息提取和跨模态交互模块，在多个数据集上超越了现有技术。此外，研究提出了CONE、Mug-STAN和TOPA等新方法，在视频-语言对齐和分析中取得了显著成果，推动了多模态大语言模型的发展。

PiTe：大规模视频语言模型的像素时间对齐

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多模态框架的视频时间定位方法，结合RGB图像、光流和深度图，通过transformers实现动态融合，提升了在Charades-STA和ActivityNet Captions数据集上的表现。同时，提出了记忆引导语义学习网络（MGSL-Net）以解决模型遗忘问题，并通过动态关联常见与罕见情况增强泛化能力。此外，研究探讨了多形式句子的时空视频基础问题，提出了时空图推理网络，实验结果验证了其有效性。

SpikeMba：多模态脉冲显著性蛇为时态视频定位

BriefGPT - AI 论文速递 ·

本文介绍了视频时间定位（VTG）的方法，使用GPT模型进行零训练或微调，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

BriefGPT - AI 论文速递 ·