Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型

本研究针对多模态大语言模型在不同语言间表现一致性不足的问题，提出了新的基准KnowRecall和VisRecall。KnowRecall专注于评估15种语言中关于全球地标的文化和历史问题的知识一致性，而VisRecall则通过描述地标外观在9种语言中检验视觉记忆一致性。实验结果显示，当前最先进的多模态大语言模型仍然难以实现跨语言一致性，强调了开发更具多语言和文化意识模型的必要性。

本研究提出了KnowRecall和VisRecall基准，评估多模态大语言模型在15种语言中对全球地标知识和视觉记忆的一致性。结果表明，现有模型在跨语言一致性方面不足，需要开发更具多语言和文化意识的模型。

一致性地标知识多模态大语言模型视觉记忆跨语言一致性

原文中文，约300字，阅读约需1分钟。发表于：。

阅读原文

分享给好友

使用大型语言模型和知识图谱的阿尔茨海默病多模态整合分析

本研究提出了一种新颖的框架，用于整合阿尔茨海默病研究中的碎片化多模态数据，克服了传统多模态分析需要匹配患者ID的限制。通过将MRI、基因表达、生物标志物、EEG和临床指标整合到知识图谱中，我们发现了潜在的代谢风险因素与tau蛋白异常之间的联系，以及额叶EEG通道与特定基因表达谱之间的意外关联，为进一步理解阿尔茨海默病的病理学提供了新视角。

本研究提出了一种新框架，整合阿尔茨海默病的多模态数据，克服传统分析中患者ID匹配的限制，揭示代谢风险因素与tau蛋白异常之间的关系。

tau蛋白代谢风险多模态多模态数据大型语言模型异常阿尔茨海默病

原文中文，约500字，阅读约需2分钟。发表于：。

阅读原文

分享给好友

通过大语言模型生成的推理增强多模态基于方面的情感分析

本研究针对现有多模态基于方面的情感分析（MABSA）方法中小语言模型（SLMs）在信息收集和情感识别中的局限性提出了解决方案。通过引入大语言模型（LLMs）生成的推理信息并结合双重交叉注意机制，增强了SLMs对方面和情感的识别能力，实验结果显示该方法在多个基准测试中优于现有方法，具有良好的通用性与适用性。

本研究提出了一种改进的小语言模型情感分析方法，通过引入大语言模型生成的推理信息和双重交叉注意机制，提升了对方面和情感的识别能力，实验结果优于现有方法。

双重交叉注意机制多模态大语言模型小语言模型情感分析识别能力

原文中文，约300字，阅读约需1分钟。发表于：。

阅读原文

分享给好友

基于光照感知的多模态融合网络用于地形感知

本研究解决了现有无人驾驶车辆传感器在不同光照和天气条件下感知道路状况的挑战。提出了一种光照感知的多模态融合网络（IMF），通过准确估计光照特征并动态调整各模态的权重，优化了融合过程。实验表明，IMF在多种光照条件下准确感知道路地形方面表现优于现有技术。

多模态

发表于：。

阅读原文

分享给好友

计算机视觉的最新进展：多模态融合、鲁棒性与跨领域的可扩展智能

This article is part of AI Frontiers, a series exploring groundbreaking computer science and artificial intelligence research from arXiv. We summarize key papers, demystify complex concepts in...

本文讨论了2025年5月12日发布的十六篇计算机视觉研究论文，涉及多模态融合、鲁棒性、效率、医疗应用和生成模型等主题。计算机视觉旨在使机器理解视觉信息，推动自动驾驶和医疗诊断等领域的发展。研究表明，集成多种数据、提升模型鲁棒性和效率是当前主要挑战，未来将关注生成模型的伦理问题及其在医疗中的应用。

医疗应用多模态多模态融合生成模型计算机视觉鲁棒性

原文英文，约2400词，阅读约需9分钟。发表于：。

阅读原文

分享给好友

UniEval：统一多模态理解与生成的统一整体评估

本研究解决了统一多模态理解与生成模型缺乏统一评估框架的问题。我们提出了UniEval框架，它简化并统一了评估过程，不再依赖额外的模型、图像或注释。实验结果表明UniEval的整体基准和评估指标在挑战性和与人类评估的一致性方面优于现有的评估方式。

本研究提出了UniEval框架，旨在解决多模态理解与生成模型评估标准不统一的问题。实验结果表明，UniEval在基准和评估指标上优于现有方法。

UniEval 多模态理解生成模型评估

原文中文，约200字，阅读约需1分钟。发表于：。

阅读原文

分享给好友