UI-R1:通过强化学习增强图形用户界面代理的动作预测

本研究解决了多模态大语言模型在图形用户界面(GUI)动作预测中的推理能力不足的问题。通过引入基于规则的强化学习,我们优化了模型的动作奖励机制,实验结果显示,我们的数据高效模型在多个任务上显著提升了准确性,特别是在AndroidControl和ScreenSpot-Pro基准测试中,分别提高了15%和6.0%的准确率。这表明基于规则的强化学习在推进GUI理解与控制方面具有潜力。

本研究通过引入基于规则的强化学习,解决了多模态大语言模型在图形用户界面动作预测中的推理不足,显著提升了模型在多个任务上的准确性。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文