量子位 ·

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

浙江大学和上海人工智能实验室提出的IBISAgent框架，将医学图像分割重新定义为多步视觉决策过程，克服了现有方法的局限。通过冷启动和强化学习，IBISAgent在多个基准测试中显著提升了分割性能，展示了自主多轮交互推理的优势，为智能医学图像分析奠定了基础。

🎯

🔎

IBISAgent框架通过将医学图像分割视为多步视觉决策过程，克服了传统单次推理的局限。这种方法允许模型在每一步中根据前一步的结果进行调整，形成闭环反馈，从而提高了分割的准确性和效率。

IBISAgent的成功在于其强化学习阶段的设计，细粒度的奖励机制使得模型能够在每次交互中获得反馈，优化分割路径。这种探索与利用的平衡是实现高效自主推理的核心，表明传统的单一结果奖励不足以驱动模型的最佳表现。

与其他医学多模态大模型相比，IBISAgent在多个基准测试中表现出色，尤其是在处理复杂的生物医学图像时。其设计不仅避免了隐式token的使用，还保留了模型的语言推理能力，显示出更强的泛化能力和鲁棒性。

❓

IBISAgent框架将医学图像分割重新定义为多步视觉决策过程，形成视觉感知与语言推理的闭环，且不引入新的模型组件或隐式token。

IBISAgent通过冷启动和强化学习显著提升分割性能，采用细粒度奖励机制在每个交互步骤提供反馈，优化了分割过程。

IBISAgent在多个基准测试中大幅领先其他方法，尤其在处理复杂生物医学图像时表现更佳，且保留了完整的语言能力。

IBISAgent采用两阶段训练方案，包括冷启动SFT和Agentic强化学习，前者生成高质量冷启动数据集，后者通过细粒度奖励优化模型。

IBISAgent通过多步推理轨迹和细粒度反馈机制，能够有效处理细微的病灶边界和复杂的解剖结构。

实验结果显示，IBISAgent在多个基准测试中显著领先其他方法，平均IoU提升35.13%，证明了其设计的有效性。

🏷️