小红花·文摘

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

机器之心 ·

机器之心数据服务已上线，提供高效稳定的数据获取，简化数据爬取流程。

多模态大模型，真的「懂」世界吗？——揭秘 MLLM 的核心知识缺陷

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

充分激发模态协作，MokA量身打造MLLM微调新范式

机器之心 ·

CVPR2025提出的Video-Bench框架通过模拟人类认知，评估AI生成视频的质量与美学，解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术，显著提高了评估准确性，超越了传统方法。

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

量子位 ·

本研究提出了一种“基于确定性的自适应推理”（CAR）框架，旨在提高大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的推理效率。CAR通过动态调整简短回答与长形式推理，提升了简单任务的性能，并在多模态基准测试中展现了更好的准确性和效率平衡。

Not Just Prolonged Reasoning: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

BriefGPT - AI 论文速递 ·

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

机器之心 ·

本研究提出了一种新的知识解耦协同学习方法（KDSL），有效解决电子商务中少样本多模态对话意图识别的干扰问题。在淘宝数据集上，该方法的F1分数提升了6.37%和6.28%，验证了其有效性。

Knowledge Decoupling Collaborative Learning: A Collaborative Approach for Few-Shot Multimodal Dialogue Intention Recognition Based on MLLM

BriefGPT - AI 论文速递 ·

什么是多模态大语言模型（MLLM）？[译]

宝玉的分享 ·

本研究提出了一种集体蒙特卡罗树搜索（CoMCTS）方法，以提高多模型大语言模型（MLLM）的推理效率。实验结果显示，基于CoMCTS训练的Mulberry模型在基准任务中表现优异，具有良好的应用前景。

Mulberry: Empowering MLLM for O1-Level Reasoning and Reflection through Collective Monte Carlo Tree Search

BriefGPT - AI 论文速递 ·

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

机器之心 ·

本研究提出了新模型CCExpert，结合差异感知集成模块与高质量数据集CC-Foundation，显著提升了遥感图像变化检测的性能，展现出巨大潜力。

CC专家：通过差异感知融合和基础数据集推进遥感变化字幕的MLLM能力

BriefGPT - AI 论文速递 ·

本文提出了一种统一的计算机辅助设计生成系统CAD-MLLM，能够根据文本描述、图像和点云等多模态输入生成CAD模型。研究表明，CAD-MLLM在模型质量及对噪声和缺失点的鲁棒性方面显著优于现有方法，具有重要的应用价值。

CAD-MLLM: Unified Computer-Aided Design Generation under Multimodal Conditions

BriefGPT - AI 论文速递 ·

Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列，仅用 5%的参数就能实现 90% 的性能

实时互动网 ·

CMU 研究人员发布 Pangea-7B：适用于 39 种语言的完全开放多模态大型语言模型 MLLM

实时互动网 ·

Ovis 1.6：一种开源多模态大型语言模型 (MLLM) 架构，旨在结构化地对齐视觉和文本嵌入

实时互动网 ·

本文探讨了集体照片中个体的重要性，提出了一种基于视觉线索的自动预测方法，显著改善了人群图像描述效果。研究涉及神经网络检测社交行为、多人语义分割和重要人物检测，展示了在多个数据集上的优异性能，并提出了新的预训练框架和注意力估计方法，推动了人类行为分析和自动驾驶等领域的发展。

最重要人物定位与群体情境理解的 MIP-GAF：一种 MLLM 注释基准

BriefGPT - AI 论文速递 ·

本文介绍了新型超分辨率图像生成模型，如Diff-SR和HiDiffusion，这些模型通过低分辨率图像生成高分辨率图像，显著提升了生成质量和效率。研究显示，这些模型在训练和推理中表现出色，解决了现有模型的语义不准确和对象复制等问题，为未来图像合成研究提供了新思路。

HiPrompt：无调优的高分辨率生成与分层 MLLM 提示

BriefGPT - AI 论文速递 ·

本文综述了多模态大型语言模型（MLLMs）的最新进展，包括技术、应用及挑战。MLLMs结合文本和视觉数据，展现了生成图像叙述的能力，但仍需解决多模态语义差距问题。研究探讨了模态对齐方法及其在视觉定位和图像生成等任务中的应用，为未来研究提供了方向。

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

BriefGPT - AI 论文速递 ·

该研究提出了一种名为RAAT的新方法，将大型语言模型与检索增强生成结合，显著提高了模型在噪声条件下的表现。通过多任务学习和适应性对抗训练，模型在细粒度视觉识别和零次识别任务中提升了准确性。文章还回顾了检索增强生成技术的现状及未来挑战，强调了知识更新和领域专长的关键问题。

MLLM 是一种强大的再排序模型：通过知识增强的再排序与噪声注入训练推进多模态检索增强生成

BriefGPT - AI 论文速递 ·

本文分析了医学生成型问答系统中的幻觉现象，并提出交互自我反思方法以减少幻觉。同时，研究探讨了多模态大型语言模型中的幻觉问题，提出多种减轻策略，以提高模型的可靠性和准确性。

通过多代理辩论解释和减轻 MLLM 中的幻觉

BriefGPT - AI 论文速递 ·