天工AI的SkyReels-V4视频模型近期在全球榜单中领先,超越Veo 3.1和Sora 2。此次升级显著提升了视频生成的逻辑性和可控性,支持关键帧和网格参考功能,推动视频生成进入工业化时代。SkyReels-V4强调多模态融合,提升生成质量和效率,适用于短剧等内容生产。
谷歌DeepMind CEO Hassabis预测,未来12个月AI将实现多模态融合、类人视觉智能、语言与视频深度结合、世界模型主流化及智能体可靠应用,推动AI从实验工具转向日常生活助手。
文心大模型在推理能力评估中获得“4+级”评级,展现出优异的多模态融合和深度思考能力。通过自反馈增强技术和飞桨框架优化训练效率,百度推动其在教育、代码和数字人等领域的应用,显示出强大的技术优势和市场潜力。
本文讨论了2025年5月12日发布的十六篇计算机视觉研究论文,涉及多模态融合、鲁棒性、效率、医疗应用和生成模型等主题。计算机视觉旨在使机器理解视觉信息,推动自动驾驶和医疗诊断等领域的发展。研究表明,集成多种数据、提升模型鲁棒性和效率是当前主要挑战,未来将关注生成模型的伦理问题及其在医疗中的应用。
本文提出CM3AE预训练框架,旨在解决事件数据与RGB帧之间的联系不足问题。通过多模态融合重建模块和对比学习策略,增强了跨模态理解能力。实验结果表明,该方法在多项任务中表现优异。
本研究提出了一种名为MASTER的多模态融合模型,能够在复杂天气和光照条件下有效提取RGB与热成像数据的信息,展现出优异性能,具有广泛应用潜力。
本研究提出了一种名为PedCA-FT的新框架,旨在早期预测儿童心脏骤停,结合电子健康记录的表格和文本视图,表现优于其他人工智能模型,展示了多模态融合技术的潜力。
前OpenAI首席科学家Ilya Sutskever在NeurIPS大会上预测,预训练时代将结束,未来将更注重推理能力。国内公司昆仑万维推出Skywork o1和Skywork 4o模型,强调推理和多模态融合。Skywork o1在数学和代码推理上表现优异,采用分步推理和强化学习;Skywork 4o则具备语音对话中的情感识别能力,提供自然互动体验。
本文介绍了深度伪造音频检测模型的研究进展,包括基于深度学习的音频数据集、MFAAN网络、实时检测模型和多模态融合方法。这些研究提高了伪音频检测的准确性,展示了在动态通信场景中确保音频安全的潜力。
本研究构建了元素属性知识图谱,并提出了多模态融合框架ESNet,将元素属性与晶体结构特征结合。实验结果表明,该方法在带隙预测中表现优异,显著提升了晶体材料性能预测的准确性和全面性。
我们推出了RTM数据集,包含14250个文本图像,其中包括手动和自动篡改的图像,以及未更改的图像。现有方法在检测这些篡改上有困难。我们开发了一种新方法,通过一致性感知聚合中心和门控交叉邻域注意模块,实现多模态信息融合,并通过篡改-真实对比学习模块提高特征差异性。此框架可扩展至其他双流结构,提升篡改定位性能。代码和数据集将于2023年12月发布。
本研究通过多模态融合和一致性建模改进了视频主题分割方法,采用不同架构增强多模态融合,通过对比学习加强多模态对齐和融合。实验证明,该模型在视频主题分割性能上表现出色。
该研究设计了一种基于多模态融合和深度学习的笑声识别系统,利用图像和音频处理技术实现准确的笑声识别和情感分析。研究验证了多模态融合方法在笑声识别中的有效性,并探讨了其在情感计算和人机交互领域的潜在应用。
CSK-Net是一种多模态融合方法,利用对比学习为光学和红外图像的语义分割提供了基于光谱知识蒸馏的融合技术。该方法在多模态任务上超过现有模型,仅利用红外数据进行推断就能提高性能,且没有额外计算成本。
FedFusion是一种基于流形的多模态融合框架,通过联合估计每个客户端的浅层特征的显著流形结构,并通过级联和加法方法将特征矩阵压缩为低秩子空间,解决多卫星、多模态数据的联合融合问题。该框架在三个多模态数据集上的性能表现超过现有方法,达到94.35%的分类平均准确率,同时将通信成本压缩了4倍,并在基于Jetson TX2工业模块的轨道边缘计算架构上进行了广泛的真实卫星图像的数值评估,结果显示FedFusion将训练时间缩短了48.4分钟(15.18%),同时优化了准确性。
该研究使用ViCLEVR数据集对当代视觉推理系统进行了全面分析,并提出了一种综合的多模态融合模型PhoVIT。该模型在四个评估指标上表现最佳,促进了低资源语言的多模态融合算法的发展。
该文介绍了一种自动驾驶中的单目三维物体检测框架,使用 PointNet 网络进行三维检测,并利用多模态融合模块将 RGB 颜色信息融入点云表示。该方法在 KITTI 数据集上的评估表现超过现有最新的单目方法。
本文介绍了自动驾驶中使用的传感器、目标检测算法和数据集,讨论了多模态融合的 3D 检测网络及其挑战和解决方案,旨在帮助研究人员了解多模态 3D 目标检测领域并进行相关研究。
UCFFormer是一种多模态融合架构,能够整合具有不同分布的数据以增强人类动作识别的性能。UCFFormer使用统一Transformer来捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入了分解的时间-模态注意力来高效执行自注意力,在各种模态之间减少特征分布上的差异,从而生成在语义上对齐的特征进行信息融合。在两个流行数据集上进行的性能评估表明,UCFFormer实现了最先进的性能。
本文提出了使用图神经网络进行视频和文本信息的语义对齐,解决语言查询相关的时间间隔识别任务。通过将其转化为基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合。使用VLG-Net匹配视频和查询图,并使用掩码时刻注意力池生成时刻候选项。在ActivityNet-Captions、TACoS和DiDeMo三个数据集上,展示了优于现有技术水平的性能。
完成下面两步后,将自动完成登录并继续当前操作。