小红花·文摘

该文介绍了一种处理教学视频中多个动作类型的决策空间的方法，即掩蔽扩散模型。该方法使用面向任务的注意力过滤器来集中扩散/去噪过程在一部分动作类型上，同时采用联合视觉-文本嵌入来增强任务分类的准确性。