ActivityCLIP: 从文本中挖掘互补信息以补充图像模态的增强群体活动识别
原文中文,约300字,阅读约需1分钟。发表于: 。提取 ActivityCLIP 中的文本信息以补充图像信息,增强群体活动识别,实现较好的性能改进,通过知识传递模块和关系建模模块来适应图像信息,同时保持方法的方便性。
CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升了检索准确性。
提取 ActivityCLIP 中的文本信息以补充图像信息,增强群体活动识别,实现较好的性能改进,通过知识传递模块和关系建模模块来适应图像信息,同时保持方法的方便性。
CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升了检索准确性。