面具扩散 + 任务感知:教学视频中的程序规划
原文中文,约500字,阅读约需2分钟。发表于: 。在教学视频的程序规划中,处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容,人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型,并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近,通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而,现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制,我...
该文介绍了一种处理教学视频中多个动作类型的决策空间的方法,即掩蔽扩散模型。该方法使用面向任务的注意力过滤器来集中扩散/去噪过程在一部分动作类型上,同时采用联合视觉-文本嵌入来增强任务分类的准确性。