ILuvUI：基于机器对话的用户界面指令调优语言-视觉建模

Apple Machine Learning Research ·

本文提出了一种无需人工标注的用户界面（UI）训练数据生成方法，结合像素方法和大型语言模型（LLM），生成了335K个对话示例数据集，用于微调对话式视觉语言模型（VLM），并评估了UI元素检测、响应质量和多步骤导航等任务。

对话示例建模用户界面视觉语言模型训练数据评估

原文英文，约200词，阅读约需1分钟。