小红花·文摘

谷歌DeepMind CEO Hassabis对未来12个月的的预测 - 蝈蝈俊

蝈蝈俊 ·

文心大模型在推理能力评估中获得“4+级”评级，展现出优异的多模态融合和深度思考能力。通过自反馈增强技术和飞桨框架优化训练效率，百度推动其在教育、代码和数字人等领域的应用，显示出强大的技术优势和市场潜力。

计算机视觉的最新进展：多模态融合、鲁棒性与跨领域的可扩展智能

DEV Community ·

本文提出CM3AE预训练框架，旨在解决事件数据与RGB帧之间的联系不足问题。通过多模态融合重建模块和对比学习策略，增强了跨模态理解能力。实验结果表明，该方法在多项任务中表现优异。

CM3AE: A Unified RGB Frame and Event-Voxel/Frame Pre-training Framework

BriefGPT - AI 论文速递 ·

本研究提出了一种名为MASTER的多模态融合模型，能够在复杂天气和光照条件下有效提取RGB与热成像数据的信息，展现出优异性能，具有广泛应用潜力。

MASTER: Text-Prompted Multimodal Segmentation

BriefGPT - AI 论文速递 ·

本研究提出了一种名为PedCA-FT的新框架，旨在早期预测儿童心脏骤停，结合电子健康记录的表格和文本视图，表现优于其他人工智能模型，展示了多模态融合技术的潜力。

昆仑万维「天工4.0」携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

机器之心 ·

本文介绍了深度伪造音频检测模型的研究进展，包括基于深度学习的音频数据集、MFAAN网络、实时检测模型和多模态融合方法。这些研究提高了伪音频检测的准确性，展示了在动态通信场景中确保音频安全的潜力。

音频不会说谎：用于音频深度伪造检测的多频通道注意机制

BriefGPT - AI 论文速递 ·

本研究构建了元素属性知识图谱，并提出了多模态融合框架ESNet，将元素属性与晶体结构特征结合。实验结果表明，该方法在带隙预测中表现优异，显著提升了晶体材料性能预测的准确性和全面性。

Material Property Prediction Based on Element Attribute Knowledge Graphs and Multimodal Representation Learning

BriefGPT - AI 论文速递 ·

我们推出了RTM数据集，包含14250个文本图像，其中包括手动和自动篡改的图像，以及未更改的图像。现有方法在检测这些篡改上有困难。我们开发了一种新方法，通过一致性感知聚合中心和门控交叉邻域注意模块，实现多模态信息融合，并通过篡改-真实对比学习模块提高特征差异性。此框架可扩展至其他双流结构，提升篡改定位性能。代码和数据集将于2023年12月发布。

FakeShield：基于多模态大语言模型的可解释图像伪造检测与定位

BriefGPT - AI 论文速递 ·

本研究通过多模态融合和一致性建模改进了视频主题分割方法，采用不同架构增强多模态融合，通过对比学习加强多模态对齐和融合。实验证明，该模型在视频主题分割性能上表现出色。

多模融合与连贯建模：视频主题分割

BriefGPT - AI 论文速递 ·

该研究设计了一种基于多模态融合和深度学习的笑声识别系统，利用图像和音频处理技术实现准确的笑声识别和情感分析。研究验证了多模态融合方法在笑声识别中的有效性，并探讨了其在情感计算和人机交互领域的潜在应用。

基于多模态融合和深度学习的笑声识别系统的设计与开发

BriefGPT - AI 论文速递 ·

CSK-Net是一种多模态融合方法，利用对比学习为光学和红外图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法在多模态任务上超过现有模型，仅利用红外数据进行推断就能提高性能，且没有额外计算成本。

FedFusion是一种基于流形的多模态融合框架，通过联合估计每个客户端的浅层特征的显著流形结构，并通过级联和加法方法将特征矩阵压缩为低秩子空间，解决多卫星、多模态数据的联合融合问题。该框架在三个多模态数据集上的性能表现超过现有方法，达到94.35%的分类平均准确率，同时将通信成本压缩了4倍，并在基于Jetson TX2工业模块的轨道边缘计算架构上进行了广泛的真实卫星图像的数值评估，结果显示FedFusion将训练时间缩短了48.4分钟（15.18%），同时优化了准确性。

FedFusion：多星多模态深度融合驱动的联邦学习

BriefGPT - AI 论文速递 ·

该研究使用ViCLEVR数据集对当代视觉推理系统进行了全面分析，并提出了一种综合的多模态融合模型PhoVIT。该模型在四个评估指标上表现最佳，促进了低资源语言的多模态融合算法的发展。

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

BriefGPT - AI 论文速递 ·

该文介绍了一种自动驾驶中的单目三维物体检测框架，使用 PointNet 网络进行三维检测，并利用多模态融合模块将 RGB 颜色信息融入点云表示。该方法在 KITTI 数据集上的评估表现超过现有最新的单目方法。

基于颜色化的预训练 LiDAR 三维目标检测器

BriefGPT - AI 论文速递 ·

本文介绍了自动驾驶中使用的传感器、目标检测算法和数据集，讨论了多模态融合的 3D 检测网络及其挑战和解决方案，旨在帮助研究人员了解多模态 3D 目标检测领域并进行相关研究。

不同骨干网络架构对自动驾驶车辆数据集的影响

BriefGPT - AI 论文速递 ·

UCFFormer是一种多模态融合架构，能够整合具有不同分布的数据以增强人类动作识别的性能。UCFFormer使用统一Transformer来捕捉嵌入特征在时间和模态领域之间的相互依赖关系，并引入了分解的时间-模态注意力来高效执行自注意力，在各种模态之间减少特征分布上的差异，从而生成在语义上对齐的特征进行信息融合。在两个流行数据集上进行的性能评估表明，UCFFormer实现了最先进的性能。

统一对比融合变压器用于多模态人类动作识别

BriefGPT - AI 论文速递 ·

本文提出了使用图神经网络进行视频和文本信息的语义对齐，解决语言查询相关的时间间隔识别任务。通过将其转化为基于算法的图匹配问题，并采用图匹配层进行跨模态上下文建模和多模态融合。使用VLG-Net匹配视频和查询图，并使用掩码时刻注意力池生成时刻候选项。在ActivityNet-Captions、TACoS和DiDeMo三个数据集上，展示了优于现有技术水平的性能。

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位

BriefGPT - AI 论文速递 ·

刚刚，全球视频模型新王诞生了！

谷歌DeepMind CEO Hassabis对未来12个月的的预测 - 蝈蝈俊

一场对话，我们细扒了下文心大模型背后的技术

计算机视觉的最新进展：多模态融合、鲁棒性与跨领域的可扩展智能

CM3AE: A Unified RGB Frame and Event-Voxel/Frame Pre-training Framework

MASTER: Text-Prompted Multimodal Segmentation

基于多模态融合变换器的儿童心脏骤停早期风险预测

昆仑万维「天工4.0」携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

音频不会说谎：用于音频深度伪造检测的多频通道注意机制

Material Property Prediction Based on Element Attribute Knowledge Graphs and Multimodal Representation Learning

FakeShield：基于多模态大语言模型的可解释图像伪造检测与定位

多模融合与连贯建模：视频主题分割

基于多模态融合和深度学习的笑声识别系统的设计与开发

基于相关性解耦的多模态不完整情感分析知识蒸馏

FedFusion：多星多模态深度融合驱动的联邦学习

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

基于颜色化的预训练 LiDAR 三维目标检测器

不同骨干网络架构对自动驾驶车辆数据集的影响

统一对比融合变压器用于多模态人类动作识别

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位