基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究提出了一个新的双流框架,利用Transformer和GNN架构学习空间和三维信息,并引入瓶颈Transformer以融合信息。实验证明该框架在事件分类上表现出最先进的性能。
🎯
关键要点
- 该研究提出了一个新颖的双流框架用于事件表示、提取和融合。
- 框架利用Transformer和结构化图神经网络(GNN)架构学习空间信息和三维立体信息。
- 引入瓶颈Transformer以促进双流信息的融合。
- 广泛实验证明该框架在两个事件分类数据集上取得了最先进的性能。
➡️