研究显示,具身AI存在漏洞,无法理解物理因果关系。Blindfold攻击框架将恶意意图转化为安全动作序列,成功率高达98%。传统防御机制效果有限,需要整合多模态信息和动作级推理以确保AI安全。
MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。
文章讨论了QVQ模型的开发,该模型基于Qwen2-VL-72B,旨在增强人工智能的视觉理解和推理能力。QVQ在视觉推理和复杂问题解决方面表现优异,但仍存在语言混合、递归推理和安全性等局限性。未来,团队计划整合多模态信息,以提升模型智能水平。
本研究提出Emma-X模型,旨在解决传统强化学习在不同环境和未见对象任务中的推广问题,通过结合多模态信息,增强机器人在空间推理和规划方面的能力。
本文探讨了使用强化学习算法进行端到端自动驾驶研究,利用前置摄像头的RGB图像进行车辆控制学习。研究表明,该方法在不同道路条件下表现出快速收敛和稳健性,并具备领域适应能力。通过多模态信息和自监督传感器融合技术,提升了模型的导航能力和准确性,成功应用于模拟和实际赛道。
本文综述了基于大型语言模型(LLM)的推荐系统,提出了判别型和生成型两种推荐方法,探讨了其在个性化推荐中的应用及面临的挑战。研究表明,LLM在理解用户偏好和生成相关推荐方面具有潜力,未来发展方向包括提高推荐准确性和处理多模态信息。
研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。
该论文提出多种基于神经解码和深度学习的方法,研究大脑视觉皮层的表征及其与视觉和语义特征的关系。结果表明,结合多模态信息和生成模型能有效提高图像重建和视觉理解的准确性,揭示了视觉-语义表示的复杂性。
本研究提出了一种新颖的3D场景重建方法,利用高斯插值法和无人机获取的LiDAR数据,创建了U-Scene数据集。该方法结合多模态信息,显著提高了重建精度和效率,尤其在大规模场景中表现优异,解决了传统方法的不足,展示了几何一致性和渲染质量的优势。
本文介绍了一种基于多模态信息的假新闻检测方法(SAFE),通过提取文本和视觉特征有效识别假新闻。研究提出了自适应交互融合网络(AIFN)和多粒度多模态融合网络,均在多个数据集上表现优异。此外,开发了鲁棒领域与多模态方法(RDCM)和M-DRUM模型,进一步提升了假新闻检测的准确性。
本研究提出了多种基于电子健康记录(EHR)的疾病诊断和预测模型,如HeteroMed、MedGTX和REALM,旨在通过融合异构数据和多模态信息,提高疾病预测的准确性和可解释性。这些模型在处理缺失值、捕捉临床事件相似性及多任务学习方面表现优越,推动了个性化医疗的发展。
MovieQA数据集用于评估从视频和文本中理解故事的能力,包含408部电影的14,944个问题。研究展示了基于叙述结构的摘要模型和多模态信息的应用,旨在提升自动文摘的性能和准确性。
本文介绍了一种结合卫星遥感数据和深度学习技术的作物分类方法。通过归一化处理和卷积神经网络、循环神经网络的结合,该方法提高了分类精度,尤其在极端天气条件下表现良好。研究开发了新的农作物分类模型,利用多模态信息和转移学习,成功检测不同地区的作物类型,并建立了高分辨率的农田时间序列数据集,以支持粮食安全和环境监测。
大语言模型通过EmotionPrompt提升情绪智能,研究表明其在情感识别任务中表现优异。结合多模态信息和情感知识的对话型模型克服了情感识别的局限性,结合语音特征和伦理考量,LLMs能够生成更具情感共鸣的内容,展现了在情感分析和伦理决策中的潜力。
本文提出了一种基于层次结构的讽刺检测方法,结合多头交叉注意力机制和图神经网络,利用外部知识资源,效果优于现有技术。研究表明,多模态信息在社交媒体上有效降低讽刺检测的误差率,并开发了新的数据集和模型,提升了检测的准确性和鲁棒性。
本文介绍了第七届野外情感行为分析(ABAW)竞赛,重点讨论多任务学习和复合表情识别的挑战。研究利用多模态信息进行情感分析,提出了有效模型,并展示了在情感识别中的应用及性能提升。
本文研究了基于视频的语言表示,提出了多种新方法以提高长视频中的句子定位和生成能力。通过引导模型和多模态信息,改进了时间句子定位任务,并在多个数据集上取得了优异表现。此外,提出了新的基准测试LLM4VG,评估视频对齐任务中的不同模型性能,显示出进一步优化的潜力。
该论文提出了MISSRec框架,通过多模态信息解决推荐系统中的稀疏ID和冷启动问题。利用Transformer编码器和动态融合模块,MISSRec实现了更鲁棒的序列表示,实验结果验证了其在实际推荐场景中的有效性和灵活性。
本文提出了名为PROOF的模型,旨在解决视觉语言模型在类增量学习中的遗忘问题。通过多模态信息融合,PROOF在九个基准数据集上表现出色。文章还回顾了大型语言模型在持续学习中的应用,探讨了预训练和微调方法,以及未来的研究方向。
本文介绍了一种新方法,通过多模态信息融合实现零样本组合图像检索(CIR),在CIRR和FashionIQ等数据集上表现优异。提出的SEARLE和LinCIR方法无需标记数据,利用视觉特征和文本描述提高检索准确性,实验结果显示这些方法在多个基准测试中超越了现有技术,展现出良好的泛化性能。
完成下面两步后,将自动完成登录并继续当前操作。