小红花·文摘

本研究提出了一种亮度自适应的多模态动态融合框架（BA-Fusion），有效解决了现有图像融合方法在动态亮度波动下的鲁棒性不足问题。实验结果表明，该方法在信息保留和视觉保真度方面优于现有技术。

动态亮度适应的鲁棒多模态图像融合

BriefGPT - AI 论文速递 ·

本文探讨了多模态特征融合在视觉问答（VQA）中的应用，提出了动态融合、知识蒸馏和图神经网络等方法，显著提升了问答的效率和准确性。实验结果表明，这些方法在多个数据集上表现优越，展现了未来研究的潜力。

本文介绍了一种基于多模态框架的视频时间定位方法，结合RGB图像、光流和深度图，通过transformers实现动态融合，提升了在Charades-STA和ActivityNet Captions数据集上的表现。同时，提出了记忆引导语义学习网络（MGSL-Net）以解决模型遗忘问题，并通过动态关联常见与罕见情况增强泛化能力。此外，研究探讨了多形式句子的时空视频基础问题，提出了时空图推理网络，实验结果验证了其有效性。

SpikeMba：多模态脉冲显著性蛇为时态视频定位

BriefGPT - AI 论文速递 ·

本研究提出了多种自适应融合网络和动态融合方法，显著提升了多模态机器翻译和情感识别的效果。通过特征融合策略和多模态模型，改善了情感分析和图像描述的质量，验证了多模态融合在分类准确性和模型鲁棒性方面的优势。

基于上下文的多模态融合

BriefGPT - AI 论文速递 ·

动态亮度适应的鲁棒多模态图像融合

在视觉问答中通过模态感知特征蒸馏增强连续学习

SpikeMba：多模态脉冲显著性蛇为时态视频定位

基于上下文的多模态融合