小红花·文摘

MathFusion通过顺序、并行和条件三种融合策略提升大语言模型在数学问题上的能力，利用45K合成指令使准确率提高18%。该方法有效捕捉问题间深层联系，展现出优越的数据效率和性能，适用于更复杂的数学问题。

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

量子位 ·

本研究针对多光谱物体检测中的特征提取和融合策略，提出了有效的训练技术和首个公平可重复的基准，系统评估现有方法的表现，并介绍了一种高效的多光谱检测框架，推动了该技术的发展。

Optimizing Multispectral Object Detection: A Series of Techniques and Comprehensive Benchmarks

BriefGPT - AI 论文速递 ·

本研究提出了一种新型卷积神经网络架构，解决了多模态医学图像融合中细粒度特征捕捉不足的问题。通过膨胀残差注意网络模块和无参数融合策略，实验结果表明该方法在视觉质量和融合速度上优于其他方法，具有实际临床应用潜力。

Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion

BriefGPT - AI 论文速递 ·

本文研究了多模态模型的鲁棒性，提出了可证明鲁棒的多模态训练（CRMT）方法，显著提升了模型在对抗攻击下的表现。分析不同攻击方式后发现，多模态分类器在视觉对抗性输入下较为脆弱，但提供上下文信息可以降低其影响。此外，研究还提出了新的图像分类方法和对抗性融合策略，进一步增强了鲁棒性，并在多个数据集上取得了良好效果。

MMCert：多模态模型的可证明防御机制抵御对抗攻击

BriefGPT - AI 论文速递 ·

本文介绍了一种新的深度学习架构，用于红外和可见图像融合问题。该架构包括编码网络、融合层和稠密块，并设计了两个融合策略。与现有的融合方法相比，该方法在客观和主观评估方面均取得了最先进的性能。

SSPFusion：红外与可见光图像融合的语义结构保持方法

BriefGPT - AI 论文速递 ·

UniTR是一种高效的多模态骨干网络，用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它通过一种模态不可知的转换编码器来处理不同的传感器数据，并提出了一种新颖的多模态融合策略。在nuScenes评测上，UniTR在3D目标检测方面取得了+1.1 NDS的提高，在BEV地图分割方面取得了+12.0 mIoU的提高，并具有较低的推理延迟。

FusionFormer：鸟瞰视图和时间一致 Transformer 的多感知融合用于 3D 目标

BriefGPT - AI 论文速递 ·

UniTR是一种高效的多模态骨干网络，用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它通过引入模态不可知的转换编码器来处理不同的传感器数据，并通过视角不一致的传感器数据进行并行模态表示学习和自动跨模态交互。它还提出了一种新颖的多模态融合策略，同时考虑2D透视图和3D稀疏邻域关系。在nuScenes评测中，UniTR在3D目标检测方面取得了+1.1 NDS的提高，在BEV地图分割方面取得了+12.0 mIoU的提高，并具有较低的推理延迟。

UniTR: 统一高效的多模态 Transformer 用于鸟瞰表示

BriefGPT - AI 论文速递 ·