中科院团队通过「预训练 + 监督微调」提升了图文大模型的指令跟随能力,结合高质量指令与类R1强化学习,显著增强了视觉定位能力。Qwen2.5-VL模型在复杂任务中的性能提升达50%。该方法已开源,有效解决了目标定位中的多项挑战,展现出良好的泛化性与通用能力。
完成下面两步后,将自动完成登录并继续当前操作。