基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别

整合 RGB 帧、事件流和语义标签的模式识别框架，利用预训练的大规模视觉 - 语言模型（CLIP）提取特征，并通过多模态 Transformer 网络集成这三种形式的特征，通过实验证明了 SAFE 模型的有效性。

该研究提出了一个新的双流框架，利用Transformer和GNN架构学习空间和三维信息，并引入瓶颈Transformer以融合信息。实验证明该框架在事件分类上表现出最先进的性能。

GNN架构 Transformer 事件分类双流框架模式识别空间和三维信息语言模型