量子位 ·

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

MiniMax推出的V-Triune框架实现了视觉推理与感知任务的统一学习，显著提升了性能。该框架通过动态奖励机制和样本级数据格式化，克服了传统强化学习方法的局限性。Orsta模型在基准测试中表现优异，验证了该方法的有效性。

🎯

🔎

V-Triune框架的推出标志着视觉推理与感知任务的统一学习进入新阶段。通过动态奖励机制和样本级数据格式化，该框架有效克服了传统强化学习的局限性，为多任务学习提供了灵活的解决方案。这种创新不仅提升了模型性能，也为未来的多模态AI发展奠定了基础。

Orsta模型在MEGA-Bench Core基准测试中表现出色，性能提升幅度达到14.1%。这一成果表明，V-Triune框架在处理复杂视觉任务时的有效性，尤其是在感知任务中的mAP指标显著提高，展示了其在实际应用中的潜力。

动态IoU奖励机制的引入为监测和定位任务提供了更高的精度，尤其是在冷启动问题上表现突出。这种机制通过分阶段调整阈值，帮助模型逐步提升定位能力，显示出V-Triune框架在任务适应性和稳定性方面的优势。

❓

V-Triune框架实现了视觉推理与感知任务的统一学习，显著提升了性能。

Orsta模型在MEGA-Bench Core基准测试中性能提升显著，从+2.1%提升至+14.1%。

V-Triune框架通过动态奖励机制和样本级数据格式化，解决了传统RL方法无法兼顾多重任务的问题。

动态IoU奖励机制帮助提升监测和定位任务的精度，解决冷启动问题。

MiniMax在多模态领域推出了多种模型，包括视频、视觉多模态和语言模型，提升了AI语言生成能力。

V-Triune框架采用异步客户端-服务器架构，解耦奖励计算与主训练循环，支持多任务扩展。

🏷️