小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
NarrativeTrack:超越画框评估视频语言模型

本文介绍了NarrativeTrack,这是评估多模态大语言模型(MLLMs)叙事理解的首个基准。该基准通过细致的实体中心推理,分析视频中的动态叙事。研究发现,现有模型在视觉转变和时间动态中难以稳定追踪实体,揭示了感知基础与时间推理之间的权衡。NarrativeTrack为提升MLLMs的时间基础叙事理解提供了系统框架。

NarrativeTrack:超越画框评估视频语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-06T00:00:00Z
SO-Bench:多模态大语言模型的结构输出评估

本文通过SO-Bench基准测试评估多模态大语言模型(MLLMs)在视觉结构输出能力上的表现,涵盖UI界面、自然图像、文档和图表等领域。研究发现,现有模型在准确预测符合预定义数据模式的输出方面存在不足,强调了改进多模态结构推理的必要性。

SO-Bench:多模态大语言模型的结构输出评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-05T00:00:00Z
MM-Spatial:探索多模态大语言模型中的3D空间理解

多模态大语言模型(MLLMs)在2D视觉理解方面表现优异,但在3D空间推理上仍存在局限。本文提出了新的监督微调数据集CA-VQA及评估基准,专注于室内场景,展示了其在训练MM-Spatial模型方面的有效性,显著提升了3D空间理解能力,并与专用单目深度估计模型的深度感知能力相当。

MM-Spatial:探索多模态大语言模型中的3D空间理解

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-23T00:00:00Z

研究发现,多模态大语言模型(MLLMs)能够自发形成类似于人类的物体概念表征。通过行为实验和神经影像分析,构建了AI模型的“概念地图”,揭示了AI的认知结构与人类的相似性,推动了机器理解的研究进展。

大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制

量子位
量子位 · 2025-06-10T03:01:58Z
比较多模态大语言模型与Python OCR工具:OCR准确性的机遇与挑战

多模态大语言模型(LLMs)在图像文本提取方面表现优异,但成本高、速度慢且需要强大硬件。传统OCR工具如Tesseract轻便快速,但准确性较低。比较显示,Gemini和Deepseek在准确性上优于传统工具,但复杂性和部署挑战较大。选择应根据具体目标而定。

比较多模态大语言模型与Python OCR工具:OCR准确性的机遇与挑战

DEV Community
DEV Community · 2025-05-22T10:59:39Z

本研究提出了新的基准KnowRecall和VisRecall,用于评估多模态大语言模型在不同语言间的一致性。KnowRecall关注全球地标的文化和历史知识一致性,VisRecall检验视觉记忆一致性。实验结果显示,现有模型在跨语言一致性方面仍存在困难,需要开发更具多语言和文化意识的模型。

Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了ReGraP数据集和ReGraP-LLaVA模型,旨在解决个性化多模态大语言模型在多对象关系推理中的局限性。该模型通过结合知识图谱和链式问答,显著提升了个性化知识学习和关系推理能力,表现出色。

Reasoning-based Graph Personalized Large Language and Vision Assistant ReGraP-LLaVA

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了SeriesBench基准,旨在解决多模态大语言模型在理解复杂叙事剧集方面的不足。该基准包含105部剧集和28个任务,采用新标注方法和叙事推理框架,显示现有模型在叙事理解上仍面临挑战,并提供了提升性能的路径。

SeriesBench: A Benchmark for Narrative-Driven Series Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

该研究评估了多模态大语言模型(MLLM)在提示工程中的表现,比较了七种方法。结果表明,自适应策略结合示例指导与选择性结构推理显著提升了模型的鲁棒性和准确性,为人工智能应用提供了有效的提示工程建议。

The Future of Multimodal Large Language Model Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods to Enhance Multimodal Performance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了COUNTS,一个大规模的OOD数据集,旨在评估目标检测器和多模态大语言模型在分布变化下的泛化能力。研究表明,尽管大模型在标准数据集上表现良好,但在OOD场景中仍存在显著的性能限制。

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究揭示了对比解码策略在多模态大语言模型中解决幻觉问题的局限性,尽管表面上性能有所提升,但这些提升实际上是误导性因素所致,未能有效抑制幻觉。研究挑战了对比解码的有效性,并为更好的解决方案提供了新方向。

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination Issues

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究探讨多模态大语言模型(MLLMs)的安全对齐问题,指出现有模型在多模态输入下存在缺口。实验表明,数据分布偏见是主要原因。提出通过微调模型和使用拒绝句替换响应的方法,显著提高安全性,而无需收集恶意数据。

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了一种新方法SCRAMBLe,旨在提升多模态大语言模型(MLLMs)的组合推理能力。通过训练模型区分正确与错误的图像标题,该方法在多个视觉语言基准测试中显著提高了性能,并对一般问题回答任务产生了积极影响。

Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

文章讨论了多模态大语言模型(MLLM)的发展,特别是在图文生成方面的挑战与进展。上海人工智能实验室提出了OpenING基准,包含5400个真实场景的图文实例,旨在提升模型的生成能力和评测准确性。新评估模型IntJudge通过人机协作标注,显著提高了评测一致性。研究表明,当前模型在图像生成质量上仍需改进,未来将继续扩展数据和优化模型。

CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

机器之心
机器之心 · 2025-04-05T09:24:00Z

本研究通过引入基于规则的强化学习,解决了多模态大语言模型在图形用户界面(GUI)动作预测中的推理能力不足的问题。实验结果显示,该方法在多个任务上显著提高了准确性,尤其在AndroidControl和ScreenSpot-Pro基准测试中,准确率分别提升了15%和6%。

UI-R1: Enhancing Action Prediction of GUI Agents through Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。

LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了“误导性图表问答基准”,用于评估多模态大语言模型识别误导性图表的能力。结果表明,现有模型在识别视觉误导方面存在局限性,并提出了新方法以提高解读准确性,为理解误导性图表提供了基础。

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究提出了OmniGeo,一种针对地理空间人工智能的多模态大语言模型。该模型专为处理卫星影像、地理空间元数据和文本描述等多种数据源而设计,研究表明其在多个地理空间任务中表现优于现有模型,具备更强的指令遵循能力和空间推理准确性。

OmniGeo: A Multimodal Large Language Model for Geospatial Artificial Intelligence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种视觉位置提示(VPP)方法,旨在解决多模态大语言模型(MLLMs)在视觉定位任务中坐标与空间信息对齐的问题。VPP-LLaVA通过全局和局部视觉位置提示机制,显著提升了模型在标准定位基准上的性能。

Visual Grounding of Multimodal Large Language Models Based on Visual Position Prompts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了ProJudgeBench,这是第一个用于评估多模态大语言模型(MLLM)过程判断能力的基准。研究表明,开放源代码模型与专有模型之间存在显著性能差距,并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。

ProJudge: A Multi-Modal Multi-Disciplinary Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码