量子位 ·

开源即屠榜！UniME多模态框架登顶MMEB训练榜，刷新多项SOTA纪录

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

UniME框架由格灵深瞳和阿里ModelScope等团队联合发布，刷新了MMEB训练榜纪录。该框架通过文本判别知识蒸馏和困难负样本增强微调，显著提升了多模态理解能力，适用于多种下游任务，并已开源。

🎯

关键要点

UniME框架由格灵深瞳和阿里ModelScope等团队联合发布，刷新了MMEB训练榜纪录。
UniME是一个创新性的两阶段框架，提升了多模态理解能力，适用于多种下游任务。
第一阶段为文本判别知识蒸馏，使用纯文本数据增强MLLM中LLM语言组件的嵌入能力。
第二阶段为困难负样本增强指令微调，旨在进一步增强模型判别能力和跨模态对齐。
困难负样本采样策略优化了训练效率和判别性能。
训练数据涵盖了多模态任务，确保模型在多样化任务中的稳健适应。
UniME在多模态检索任务中表现出显著的性能提升，尤其是在短标题和长标题检索中。
消融实验表明，两个训练阶段的整合使UniME在所有评估任务中实现最佳性能。
UniME的嵌入能力在经过训练后，能够更准确地表达图像的语义内容。

❓

延伸问答

UniME框架的主要创新点是什么？

UniME框架通过文本判别知识蒸馏和困难负样本增强微调，显著提升了多模态理解能力。

UniME框架的训练过程分为几个阶段？

UniME框架的训练过程分为两个阶段：文本判别知识蒸馏和困难负样本增强指令微调。

困难负样本增强指令微调的目的是什么？

其目的是进一步增强模型的判别能力、改善跨模态对齐和加强下游任务中的指令跟随能力。

UniME在多模态检索任务中的表现如何？

UniME在多模态检索任务中表现出显著的性能提升，尤其是在短标题和长标题检索中。

UniME框架的开源情况如何？

UniME框架已开源，用户可以通过提供的链接获取相关代码和模型。

UniME框架如何优化训练效率？

UniME通过困难负样本采样策略和GradCache技术优化了训练效率和判别性能。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Cloudflare收购VoidZero：开放网络的一部分是变得更加稳定，还是变得更加脆弱？
Cloudflare本周宣布收购VoidZero，并承诺其开发工具Vite将继续保持开源和社区驱动。尽管开发者对此反应不一，Cloudflare表示将致力...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...