多尺度二维时间地图扩散模型用于自然语言视频定位

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的自然语言视频定位方法,通过条件去噪扩散过程生成全局2D时空图,有效捕捉查询和视频数据的交互作用。实验证明了该方法的有效性。

🎯

关键要点

  • 本研究提出了一种新的自然语言视频定位方法。
  • 该方法通过条件去噪扩散过程生成全局2D时空图。
  • 该方法有效捕捉查询和视频数据的交互作用。
  • 多尺度技术和创新的扩散解码器克服了2D时空图的稀疏性和不连续性。
  • 实验证明了该方法的有效性。
➡️

继续阅读