BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

利用时间语境进行视频动作识别

TC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

CLIP2Video是一种利用图像语言预训练模型和多模态交互的新视频文本检索方法,准确性高。在多个基准测试中创下最新记录。

CLIP2Video 准确性 图像语言预训练模型 多模态交互 视频文本检索

相关推荐 去reddit讨论