Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

机器之心 ·

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

字节跳动和马里兰大学发布了LLaVA-Critic，这是首个用于多任务评测的开源多模态大模型。它通过高质量评测数据集，在多模态场景中进行评分和排序，与人类和GPT-4o的偏好高度一致，并提升了视觉对话能力。

🎯

关键要点

字节跳动和马里兰大学发布了LLaVA-Critic，这是首个用于多任务评测的开源多模态大模型。
LLaVA-Critic通过高质量评测数据集，在多模态场景中进行评分和排序，与人类和GPT-4o的偏好高度一致。
评测的核心在于可靠的AI评测，能够提供可扩展的解决方案，减少人工劳动。
研究团队构建了一个涵盖多样化评测场景和评分标准的评测指令遵循数据集。
LLaVA-Critic-113k数据集包含46k张图片和113k个评测数据样本，涵盖多个评测任务和领域。
LLaVA-Critic模型经过指令微调，具备通用的评测能力，能够根据评测提示给出评分和理由。
LLaVA-Critic在多模态评测任务中与GPT-4o和人类的打分一致性较高，展现出良好的评测能力。
LLaVA-Critic的评测能力可用于比较成对模型回复的好坏，作为奖励信号应用于强化学习算法。
实验结果表明，LLaVA-Critic在多个开放式问答评测基准上超越了基于人类反馈的奖励模型。
LLaVA-Critic为自动评测多模态大模型的开放式回复提供了一个可行的开源替代方案。

❓

延伸问答

LLaVA-Critic是什么？

LLaVA-Critic是首个用于多任务评测的开源多模态大模型，由字节跳动和马里兰大学发布。

LLaVA-Critic如何进行评测？

LLaVA-Critic通过高质量评测数据集，在多模态场景中进行评分和排序，并提供评分理由。

LLaVA-Critic的数据集包含哪些内容？

LLaVA-Critic-113k数据集包含46k张图片和113k个评测数据样本，涵盖多个评测任务和领域。

LLaVA-Critic的评测能力有什么优势？

LLaVA-Critic在多模态评测任务中与人类和GPT-4o的打分一致性较高，展现出良好的评测能力。

LLaVA-Critic如何应用于强化学习？

LLaVA-Critic的评测能力可用于比较成对模型回复的好坏，作为奖励信号应用于强化学习算法。

LLaVA-Critic与人类反馈的比较如何？

实验表明，LLaVA-Critic在多个开放式问答评测基准上超越了基于人类反馈的奖励模型。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...