研究显示,具身AI存在漏洞,无法理解物理因果关系。Blindfold攻击框架将恶意意图转化为安全动作序列,成功率高达98%。传统防御机制效果有限,需要整合多模态信息和动作级推理以确保AI安全。
MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。
文章讨论了QVQ模型的开发,该模型基于Qwen2-VL-72B,旨在增强人工智能的视觉理解和推理能力。QVQ在视觉推理和复杂问题解决方面表现优异,但仍存在语言混合、递归推理和安全性等局限性。未来,团队计划整合多模态信息,以提升模型智能水平。
本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。
研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。
我们引入了一种新的大规模场景重建基准,使用高斯插值法在U-Scene数据集上测试。U-Scene覆盖超过1.5平方公里,结合了RGB和LiDAR数据。通过Matrix 300无人机和Zenmuse L1 LiDAR获取精确数据,适用于城市和学术环境的空间分析。我们评估了高斯插值法的效果,并与点云数据集对比,强调多模态信息结合的重要性。
本研究通过在路边单元部署大型语言模型,并结合多模态信息提示策略,提升了边缘设备上驾驶行为叙述和推理的效率,为自动驾驶提供了更快速准确的数据处理方案。
本研究提出了一种基于单张环境图像的多智能体架构,解决了大型语言模型和视觉语言模型在融合多模态信息时表现不佳的问题。通过利用常识知识进行自由形式域的处理,并引入新的评估程序PG2S,该方法在评估规划质量方面优于现有的KAS指标。
Spatial transcriptomics技术提供了多模态的转录组、空间和形态学数据,但存在模态偏差现象。MuST方法整合了多模态信息,解决了不一致性问题,并在识别和保留组织和生物标志物结构方面优于现有方法。MuST为复杂生物系统的分析提供了多功能工具包。
本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们的方法在 RWTH-PHOENIX-2014 数据集上评估,手语识别任务中词错误率降低了0.9,翻译任务中测试集上的大多数 BLEU 得分提高了约0.6。
本文介绍了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上进行了模型测试。
本文提出了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。
本研究通过引入多模态先验,改进生成3D手势的质量。采用链式建模方法顺序生成面部融合形状、身体动作和手势,并结合节奏提示和语音情感的风格化先验生成手势。实验证实该方法达到了最先进的性能。
利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。
该研究成功解决了文本和图像信息融合中的挑战,通过引入辅助损失与主任务相结合的方式利用社交媒体帖子中的多模态信息,并分析了辅助任务在特定场景和案例中的最有效性。
eBay通过整合商品标题和图片等多模态信息,提升了推荐系统的准确性和用户体验。新系统解决了低质量图片和文本嵌入分离的问题,买家参与度显著提高,点击率提升15.9%。该系统采用Siamese双塔模型和三元组损失,确保图像与文本嵌入在同一空间内,增强了推荐的相关性和个性化。
bioFAME是一种用于多模式生物信号建模的频率感知掩码自编码器。该方法可以在预训练过程中利用多模态信息,并且可以适应不同任务和模态。在单模态时间序列的迁移实验中,该方法相较于之前的最先进方法平均提升了5.5%,并且具有稳健性。
本文研究了在神经机器翻译中利用多模态信息的有效性,发现大规模预训练的单模态系统中图像可能是多余的。同时,通过合成噪声评估了图像对处理文本噪声的帮助。实验证明多模态模型在嘈杂环境中微弱地胜过纯文本模型,视觉背景的效果与源文本噪声有关,对多模态设置中的噪声神经机器翻译有所启示。强调了结合视觉和文本信息以改进翻译质量的重要性。
完成下面两步后,将自动完成登录并继续当前操作。