ActionCOMET:一种零样本方法,学习图像特定的动作常识概念
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们开发了PlausiVL,一个视频语言模型,通过反事实学习和行动重复损失来研究行动序列的可行性。模型利用时态逻辑和动词-名词约束生成不可信的行动序列,以区分可行与不可行的序列。在Ego4D和EPIC-Kitchens-100数据集上的评估显示,该方法在行动预测任务中有显著提升。
🎯
关键要点
- 开发了PlausiVL,一个大规模视频语言模型,研究行动序列的可行性。
- 引入了两个客观函数:反事实的可行动作序列学习损失和长时程行动重复损失。
- 利用时态逻辑约束和动词-名词动作对逻辑约束生成不可信的行动序列。
- 模型通过合理动作序列学习损失区分可行与不可行的行动序列。
- 长时程行动重复损失增强模型生成多样且可行的行动序列能力。
- 在Ego4D和EPIC-Kitchens-100数据集上评估,行动预测任务取得显著改善。
➡️