机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
CVPR2025提出的Video-Bench框架通过模拟人类认知,评估AI生成视频的质量与美学,解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术,显著提高了评估准确性,超越了传统方法。
本研究提出了一种“基于确定性的自适应推理”(CAR)框架,旨在提高大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的推理效率。CAR通过动态调整简短回答与长形式推理,提升了简单任务的性能,并在多模态基准测试中展现了更好的准确性和效率平衡。
UFO是一种新型多模态大模型,通过特征检索实现细粒度视觉感知,无需额外解码器,表现优异,支持文本输出,简化任务复杂性,提升性能。
本研究提出了一种新的知识解耦协同学习方法(KDSL),有效解决电子商务中少样本多模态对话意图识别的干扰问题。在淘宝数据集上,该方法的F1分数提升了6.37%和6.28%,验证了其有效性。
多模态大语言模型(MLLM)结合语言、视觉和音频等信息处理能力,近年来在计算机视觉领域取得显著进展,广泛应用于医疗和自动驾驶等场景。顶尖模型如GPT-4o和Apple Ferret展现出强大的理解与生成能力,但在高难度任务中仍需提升。
本研究提出了一种集体蒙特卡罗树搜索(CoMCTS)方法,以提高多模型大语言模型(MLLM)的推理效率。实验结果显示,基于CoMCTS训练的Mulberry模型在基准任务中表现优异,具有良好的应用前景。
研究者们计划在2025年实现AI领域的突破,特别是在空间思维方面。他们提出了VSI-Bench,这是一个基于视频的基准测试,用于评估多模态大语言模型(MLLM)在视觉空间智能方面的表现。尽管与人类相比仍有差距,但模型展现出新兴的视觉空间智能。研究指出,空间推理是MLLM的主要瓶颈,未来的AI助手需要更好地理解和导航空间。
本研究提出了新模型CCExpert,结合差异感知集成模块与高质量数据集CC-Foundation,显著提升了遥感图像变化检测的性能,展现出巨大潜力。
本文介绍了一种新型计算机辅助设计生成系统CAD-MLLM,能够根据文本、图像和点云等多模态输入生成CAD模型。研究表明,CAD-MLLM在模型质量和鲁棒性方面优于现有方法,具有重要的应用价值。
多模态大型语言模型(MLLM)迅速发展,结合视觉与语言处理,提升数据理解能力。Mini-InternVL系列轻量级MLLM通过减少参数,实现高效的多模态理解,适用于自动驾驶和医学成像等领域,表现出色。该模型在多个基准测试中展现出强大的适应性和性能,为资源有限的环境提供了可扩展的解决方案。
尽管多模态大型语言模型(MLLM)在英语上取得进展,但全球语言和文化的代表性仍不足。卡内基梅隆大学推出的PANGEA模型,使用包含39种语言的600万个样本的数据集PANGEAINS进行训练。评估结果显示,PANGEA在多语言任务上优于现有模型,并在多元文化理解方面表现突出。该模型的开源有望提升跨语言和文化的公平性与可访问性。
人工智能中的多模态学习迅速发展,Ovis 1.6 通过视觉嵌入表对齐视觉和文本数据,解决嵌入不一致问题。在多项测试中表现优异,展示了其在复杂任务中的潜力。
本文提出了一种基于Transformer的联合注意力估计方法,通过引入上下文线索和模拟属性之间的相互作用,编码低维特征。通过预测像素级联合注意力的置信度热力图,改善了热力图准确性,并结合图像的普通注意力估计进一步提高了联合注意力估计。在定量实验中表现更好。
UltraPixel是一种新型架构,通过级联扩散模型生成多个分辨率的图像,保持计算效率。利用低分辨率图像的语义丰富表示引导高分辨率图像生成,降低复杂性。通过减少数据需求实现快速训练,生成高分辨率图像,并展现出卓越性能。
本研究介绍了E5-V框架,通过调整多模态大型语言模型实现多模态嵌入表征,有效地弥合了不同类型输入之间的模态差距,展现出强大性能。实验证明E5-V在多项任务上的有效性,同时降低了训练成本。
面部情感行为分析对于理解人类心理状态很重要。研究者引入了两个FABA任务的数据集和基准,以及一个新的MLLM“EmoLA”。实验结果显示,加入面部先验专家模块和低秩适应模块可以提高性能。EmoLA在FABA-Bench上表现最好,在常用的FABA数据集上与最先进模型竞争力强。
该论文介绍了RAVEN,一个多任务的检索增强视觉语言模型框架,通过任务特定微调,在图像字幕和VQA任务中表现出有效的检索能力。实验结果表明,该模型在MSCOCO上提高了1个CIDEr,在NoCaps上提高了4个CIDEr,在特定的VQA问题类型上提高了近3%的准确率。将RAG方法应用于视觉语言模型是有效的,标志着多模态学习迈向更高效和可访问的方向。
完成下面两步后,将自动完成登录并继续当前操作。