CREMA: 多模态组合视频推理的高效模块适应与融合

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种高效的模态融合框架CREMA,用于将新的模态注入视频推理。通过增强给定视频的多个信息模态,并引入一个与每个可访问模态相关的多个参数高效模块的查询转换器,将不同的数据类型整合到LLM令牌嵌入空间。同时提出了一个压缩多模态查询的融合模块,通过验证在视频-3D、视频-音频和视频-语言推理任务上的性能,显示了优于其他多模态LLMs的表现,并使用了96%较少的可训练参数。

🎯

关键要点

  • 提出了一种高效的模态融合框架CREMA,用于将新的模态注入视频推理。

  • 通过增强给定视频的多个信息模态,使用现有的预训练模型。

  • 引入与每个可访问模态相关的多个参数高效模块的查询转换器。

  • 将不同的数据类型整合到LLM令牌嵌入空间。

  • 提出了一个压缩多模态查询的融合模块,维持LLM的计算效率。

  • 在视频-3D、视频-音频和视频-语言推理任务上验证性能,显示优于其他多模态LLMs。

  • 使用了96%较少的可训练参数。

➡️

继续阅读