通过文本图像传播模型进行零样本视频编辑

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文提出了一种基于回归模型的方法,使用语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的交互,通过利用上下文信息,有效地预测目标时间区间。实验证明,该方法在两个数据集上的表现明显优于现有方法。

🎯

关键要点

  • 该论文提出了一种基于回归模型的方法。

  • 使用文本查询中的语义短语提取中间特征。

  • 反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互。

  • 通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。

  • 实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

➡️

继续阅读