基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别

整合 RGB 帧、事件流和语义标签的模式识别框架,利用预训练的大规模视觉 - 语言模型(CLIP)提取特征,并通过多模态 Transformer 网络集成这三种形式的特征,通过实验证明了 SAFE 模型的有效性。

该研究提出了一个新的双流框架,利用Transformer和GNN架构学习空间和三维信息,并引入瓶颈Transformer以融合信息。实验证明该框架在事件分类上表现出最先进的性能。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文