利用时间语境进行视频动作识别
原文中文,约300字,阅读约需1分钟。发表于: 。TC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。
CLIP2Video是一种利用图像语言预训练模型和多模态交互的新视频文本检索方法,准确性高。在多个基准测试中创下最新记录。
TC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。
CLIP2Video是一种利用图像语言预训练模型和多模态交互的新视频文本检索方法,准确性高。在多个基准测试中创下最新记录。