自我训练在开放词汇时间行为定位中的可扩展性探索
💡
原文中文,约1700字,阅读约需4分钟。
📝
内容提要
OVFormer是一种新型开放词汇框架,结合大型语言模型和交叉注意机制,提升视频动作分类和定位效果。通过两阶段训练策略,能够推广到新类别。此外,研究提出了自适应递增学习模型和OpenTAL框架,以解决未知动作问题,实验结果验证了其有效性。
🎯
关键要点
- OVFormer 是一种新型开放词汇框架,结合大型语言模型和交叉注意机制,提升视频动作分类和定位效果。
- 采用两阶段训练策略,能够推广到新类别,并在 THUMOS14 和 ActivityNet-1.3 基准测试中验证了有效性。
- 提出自适应递增学习模型,通过改进聚类置信度和增量实例学习策略,提高无监督时间动作定位效果。
- 引入 T3AL 方法进行测试时间自适应,显著优于基于视觉语言模型的零样本方法。
- OpenTAL 框架基于证据深度学习,解决开放场景下的未知动作问题,实验结果证明其有效性。
- 提出少样本学习设置,使用未剪裁视频动态适应新类别,显著优于现有方法。
- 自监督预训练的假动作定位任务(PAL)提高时间动作定位任务性能,具有更好的适应性和性能。
- 基于弱监督的时序动作定位框架 AutoLoc,通过自动发现分段级别监督训练模型,显著提高定位精度。
- 提出 IntraC 和 InterC 正则化项,优化时间行为定位框架,实验结果优于基线方法。
❓
延伸问答
OVFormer的主要功能是什么?
OVFormer是一种新型开放词汇框架,结合大型语言模型和交叉注意机制,提升视频动作分类和定位效果。
OVFormer是如何推广到新类别的?
OVFormer采用两阶段训练策略,包括与更大词汇数据集的训练和对下游数据的微调,从而推广到新类别。
自适应递增学习模型的作用是什么?
自适应递增学习模型通过改进聚类置信度和增量实例学习策略,提高无监督时间动作定位效果。
OpenTAL框架解决了什么问题?
OpenTAL框架基于证据深度学习,解决开放场景下的未知动作问题。
T3AL方法的优势是什么?
T3AL方法在测试时间自适应方面显著优于基于视觉语言模型的零样本方法,提升了动作区域定位的效果。
AutoLoc框架如何提高定位精度?
AutoLoc框架通过自动发现分段级别监督训练模型,显著提高了定位精度。
➡️