CREMA: 多模态组合视频推理的高效模块适应与融合
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了一种高效的模态融合框架 CREMA,用于将任何新的模态注入视频推理,通过使用现有的预训练模型增强给定视频的多个信息模态,然后引入一个与每个可访问模态相关的多个参数高效模块的查询转换器,将不同的数据类型整合到响应产生的 LLM 令牌嵌入空间,同时提出了一个压缩多模态查询的融合模块,在维持 LLM 的计算效率的同时结合额外的模态,通过充分验证了在视频 - 3D、视频 - 音频和视频...
本文提出了一种高效的模态融合框架CREMA,用于将新的模态注入视频推理。通过增强给定视频的多个信息模态,并引入一个与每个可访问模态相关的多个参数高效模块的查询转换器,将不同的数据类型整合到LLM令牌嵌入空间。同时提出了一个压缩多模态查询的融合模块,通过验证在视频-3D、视频-音频和视频-语言推理任务上的性能,显示了优于其他多模态LLMs的表现,并使用了96%较少的可训练参数。