OVFormer是一种新型开放词汇框架,结合大型语言模型和交叉注意机制,提升视频动作分类和定位效果。通过两阶段训练策略,能够推广到新类别。此外,研究提出了自适应递增学习模型和OpenTAL框架,以解决未知动作问题,实验结果验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。