机器之心 ·

TRACE：因果事件建模助力视频理解大模型的时间定位能力

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

香港中文大学（深圳）研究团队提出TRACE技术，通过因果事件建模提升视频理解能力，解决了传统视频检索效率低的问题。TRACE将视频结构化为时间戳、显著性分数和文本描述，显著提高了时序理解与定位精度，效果优于其他模型。

🎯

🔎

TRACE技术通过因果事件建模，显著提升了视频理解的时序精度。这种方法不仅解决了传统视频检索的效率低下问题，还通过结构化的三元组表示，使得模型能够更清晰地理解视频内容的逻辑关系。用户在寻找特定视频片段时，将能更快速地定位到所需内容。

传统的视频检索方法往往依赖逐帧分析，效率低且缺乏泛化能力。而TRACE通过事件级别的建模，打破了这一局限，提供了更高效的检索方式。相比之下，TRACE在zero-shot任务中的表现也明显优于其他通用视频大模型，显示出其在实际应用中的潜力。

TRACE模型采用分阶段训练策略，首先训练视觉压缩模块，再专注于大模型的调优。这种方法不仅提高了模型的整体性能，还确保了在不同任务中的适应性。随着采样帧数的增加，模型效果也随之提升，表明在数据量充足的情况下，TRACE的优势更加明显。

❓

TRACE技术通过因果事件建模，将视频结构化为时间戳、显著性分数和文本描述，从而显著提高时序理解与定位精度。

传统视频检索方法效率低下，采用逐帧分析的线性处理策略，缺乏泛化能力，导致检索效果不理想。

TRACE技术的核心创新是将视频理解大模型的输出拆解为三元事件单元，实现因果事件建模。

TRACE在zero-shot任务中表现优异，超越了其他通用视频大模型，显示出更大的优势。

TRACE为时间戳和显著性分数设计了专用tokenizer，使模型能够更准确地理解和生成这些信息。

TRACE的训练策略分为两阶段，第一阶段训练视觉压缩模块和任务头，第二阶段专注调优大模型基座。

🏷️