基于故事板指导的精细化视频动作识别对齐
发表于: 。本研究解决了以往精细化视频动作识别方法在视频与文本匹配时因全球语义理解不足导致的对齐不准确问题。通过构建多粒度框架,结合预训练的大型语言模型生成的细粒度描述,增强了全球视频语义,最终实现了在多个视频动作识别数据集上的显著性能提升。
本研究解决了以往精细化视频动作识别方法在视频与文本匹配时因全球语义理解不足导致的对齐不准确问题。通过构建多粒度框架,结合预训练的大型语言模型生成的细粒度描述,增强了全球视频语义,最终实现了在多个视频动作识别数据集上的显著性能提升。