小红花·文摘

OVFormer是一种新型开放词汇框架，结合大型语言模型和交叉注意机制，提升视频动作分类和定位效果。通过两阶段训练策略，能够推广到新类别。此外，研究提出了自适应递增学习模型和OpenTAL框架，以解决未知动作问题，实验结果验证了其有效性。