BriefGPT - AI 论文速递 ·

生成多模态模型是上下文学习耠

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

MMMU是一个新的基准，用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题，涵盖六个核心学科和30个学科和183个子领域。MMMU侧重于使用领域特定知识进行高级感知和推理，对14个开源LMM和专有的GPT-4V进行了评估。结果显示，即使是先进的GPT-4V也只能达到56％的准确率。MMMU将推动构建面向专家人工通用智能的下一代多模态基础模型。

🎯

关键要点

MMMU是一个新的基准，用于评估多模态模型在跨学科任务上的表现。
MMMU包含11500个多模态问题，涵盖六个核心学科和183个子领域。
这些问题涉及30种不同类型的图像，如图表、地图和化学结构。
MMMU侧重于使用领域特定知识进行高级感知和推理。
对14个开源LMM和GPT-4V的评估显示，GPT-4V的准确率仅为56%。
MMMU将推动构建面向专家的下一代多模态基础模型。

🏷️

继续阅读

看下chrome的内置模型
Chrome内置模型提供本地翻译和语言检测功能，无需联网，适用于Windows 10/11和macOS 13+，需22GB以上磁盘空间。该模型可用于社交网...
为什么仅靠更便宜的模型无法节省你的人工智能预算
随着智能代理的发展，工程师面临代币消耗过高的问题。复杂任务可能消耗数十万代币。为降低成本，团队探索了三种策略：压缩上下文、将任务分配给更便宜的模型，以及使...
光象科技累计完成数亿元天使轮融资，布局物理原生基座模型
光象科技近日完成数亿元天使轮融资，资金将用于物理原生基座模型研发及具身智能机器人商业化。公司推出的Phi-Bot X1机器人在汽车产线焊接中表现出色，验证...
一分钟读论文：《多模型组合的共失败天花板》
研究揭示了多模型组合的共失败率天花板beta，表明传统的错误相关性指标rho无法准确反映模型间的依赖关系。实测数据显示，不同任务的共失败率存在显著差异，增...
更好的模型：更差的工具
最近的Claude模型在调用Pi的编辑工具时出现了额外的虚构字段，导致工具调用失败。尽管编辑内容正确，但参数格式不符合预期。新模型在这方面的表现不如旧模型...
缅怀我的父亲
文章讲述了作者与亲人因脑梗而经历的生离死别。亲人手术后病情恶化，最终决定放弃治疗。作者回忆与亲人的情感，感到自责与悲痛，反思未能多陪伴。尽管失去令人心碎，...

内容提要

关键要点

标签

继续阅读