小红花·文摘

本文探讨了在成本敏感情况下，如何自动选择错误修正的位置和大小，以最大化修正数量，并提出动态更新框架以训练纠错成本模型。研究还介绍了新的语音转文字任务及其改进的转录质量方法，展示了跨模态融合技术在自动语音识别中的应用，显著提升了效率和准确性。

克里斯普·耳语：准确的逐字语音转录时间戳

BriefGPT - AI 论文速递 ·

本文提出了一种多交互双解码器方法，以提升RGB-thermal显著物体检测的性能。通过自监督学习和新模块设计，成功解决了跨模态融合问题。实验结果表明，该方法在多个数据集上优于现有技术，展现出良好的鲁棒性和泛化能力。

将“任何事物分割模型”适应于多模态显著目标检测的语义特征融合指导

BriefGPT - AI 论文速递 ·

本文提出了一种基于全局和局部信息的定位框架，利用全局损失和动态重加权机制来解决学习困难。实验表明，该方法在图像-文本和音频-文本检索任务中优于以往技术。此外，研究了人脸与声音的关联，提出了音视频语音识别的新技术，展示了跨模态融合在说话人验证中的潜力。

对齐之后融合：通过多模态编码器来提高人脸 - 声音相关性学习

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的跨模态融合架构，旨在提升多模态融合与全景场景感知的效果。通过失真感知模块处理对象变形，结合特征矫正和信息交换，测试结果显示在多个数据集上取得了显著的mIoU性能提升。此外，研究还介绍了多个新数据集和方法，推动了室内场景理解和3D视觉研究的发展。

360+x: 一个全景多模态场景理解数据集

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真。通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文。在三个室内全景数据集中进行测试，达到了较好的性能。

场景先验滤波在深度图超分辨率中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真。通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文。在三个室内全景数据集中进行测试，达到了较高的性能。

ShareCMP: 极化感知的 RGB-P 语义分割

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真。通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文。在三个室内全景数据集中进行测试，达到了较高的mIoU性能。

利用多模态球面图像进行单帧语义分割

BriefGPT - AI 论文速递 ·