VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉
原文中文,约600字,阅读约需2分钟。发表于: 。我们提出了一种名为 VGA 的细调模型,旨在提升对图形用户界面(GUI)的理解能力,减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering(VQA)数据集,并设计了一种名为 Foundation and Advanced...
使用视觉语言模型开发多功能代理人来帮助人类完成图形用户界面导航任务。提出了GUICourse数据集用于训练代理人,实验证明其在常见的图形用户界面任务上具有更好的性能。源代码和数据集已发布。