Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了OSWorld-G基准,包含564个注释样本,以解决图形用户界面(GUI)基础映射的复杂性问题。同时发布了Jedi数据集,包含400万示例,显著提升了模型在复杂计算任务中的性能。

🎯

关键要点

  • 本研究提出了OSWorld-G基准,包含564个精细注释样本,旨在解决图形用户界面(GUI)基础映射的复杂性问题。
  • OSWorld-G基准提升了对软件常识和布局理解的处理能力。
  • 研究合成并发布了Jedi数据集,包含400万示例,显著提高了模型在复杂计算任务中的性能。
  • Jedi数据集验证了不同界面元素组合的数据能够实现对新界面的组成泛化。
➡️

继续阅读