该文介绍了一种处理教学视频中多个动作类型的决策空间的方法,即掩蔽扩散模型。该方法使用面向任务的注意力过滤器来集中扩散/去噪过程在一部分动作类型上,同时采用联合视觉-文本嵌入来增强任务分类的准确性。
完成下面两步后,将自动完成登录并继续当前操作。