小红花·文摘

激励自我中心视频理解模型中的时间意识

Apple Machine Learning Research ·

AI 范式雷达：《从端到端成功率到细粒度规划诊断》

Micropaper ·

从事物的位置到它们的用途：多模态大语言模型的空间–功能智能基准评估

Apple Machine Learning Research ·

NarrativeTrack：超越画框评估视频语言模型

Apple Machine Learning Research ·

SO-Bench：多模态大语言模型的结构输出评估

Apple Machine Learning Research ·

MM-Spatial：探索多模态大语言模型中的3D空间理解

Apple Machine Learning Research ·

研究发现，多模态大语言模型（MLLMs）能够自发形成类似于人类的物体概念表征。通过行为实验和神经影像分析，构建了AI模型的“概念地图”，揭示了AI的认知结构与人类的相似性，推动了机器理解的研究进展。

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

量子位 ·

比较多模态大语言模型与Python OCR工具：OCR准确性的机遇与挑战

DEV Community ·

本研究提出了新的基准KnowRecall和VisRecall，用于评估多模态大语言模型在不同语言间的一致性。KnowRecall关注全球地标的文化和历史知识一致性，VisRecall检验视觉记忆一致性。实验结果显示，现有模型在跨语言一致性方面仍存在困难，需要开发更具多语言和文化意识的模型。

Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了ReGraP数据集和ReGraP-LLaVA模型，旨在解决个性化多模态大语言模型在多对象关系推理中的局限性。该模型通过结合知识图谱和链式问答，显著提升了个性化知识学习和关系推理能力，表现出色。

Reasoning-based Graph Personalized Large Language and Vision Assistant ReGraP-LLaVA

BriefGPT - AI 论文速递 ·

本研究提出了SeriesBench基准，旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务，采用新标注方法和叙事推理框架，显示现有模型在叙事理解上仍面临挑战，并提供了提升性能的路径。

SeriesBench: A Benchmark for Narrative-Driven Series Understanding

BriefGPT - AI 论文速递 ·

该研究评估了多模态大语言模型（MLLM）在提示工程中的表现，比较了七种方法。结果表明，自适应策略结合示例指导与选择性结构推理显著提升了模型的鲁棒性和准确性，为人工智能应用提供了有效的提示工程建议。

The Future of Multimodal Large Language Model Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods to Enhance Multimodal Performance

BriefGPT - AI 论文速递 ·

本研究提出了COUNTS，一个大规模的OOD数据集，旨在评估目标检测器和多模态大语言模型在分布变化下的泛化能力。研究表明，尽管大模型在标准数据集上表现良好，但在OOD场景中仍存在显著的性能限制。

激励自我中心视频理解模型中的时间意识

AI 范式雷达：《从端到端成功率到细粒度规划诊断》

从事物的位置到它们的用途：多模态大语言模型的空间–功能智能基准评估

NarrativeTrack：超越画框评估视频语言模型

SO-Bench：多模态大语言模型的结构输出评估

MM-Spatial：探索多模态大语言模型中的3D空间理解

大模型能够自发形成“人类思维地图”！Nature子刊重磅研究揭示多模态大模型类脑机制

比较多模态大语言模型与Python OCR工具：OCR准确性的机遇与挑战

Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal Large Language Models

Reasoning-based Graph Personalized Large Language and Vision Assistant ReGraP-LLaVA

SeriesBench: A Benchmark for Narrative-Driven Series Understanding

The Future of Multimodal Large Language Model Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods to Enhance Multimodal Performance

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination Issues

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

UI-R1: Enhancing Action Prediction of GUI Agents through Reinforcement Learning

LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering