Apple Machine Learning Research ·

ILuvUI：基于机器对话的用户界面指令调优语言-视觉建模

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种无需人工标注的用户界面（UI）训练数据生成方法，结合像素方法和大型语言模型（LLM），生成了335K个对话示例数据集，用于微调对话式视觉语言模型（VLM），并评估了UI元素检测、响应质量和多步骤导航等任务。

🎯

🔎

本文提出的方法通过结合像素方法和大型语言模型，成功生成了无需人工标注的用户界面训练数据。这一创新不仅降低了数据准备的成本，还提高了数据生成的效率，使得更多的开发者能够快速构建和优化对话式视觉语言模型（VLM）。

多模态视觉语言模型在图像和语言的结合理解上展现出强大的潜力，但在用户界面任务中的表现仍有待提升。通过生成的335K对话示例数据集，模型在UI元素检测和多步骤导航等任务中的性能得到了显著改善，显示了其在实际应用中的广泛前景。

生成的数据集适用于任何用户界面截图，意味着该方法具有广泛的适用性。无论是移动应用还是网页设计，开发者都可以利用这一数据集进行模型微调，从而提升用户交互体验。

❓

ILuvUI提出了一种无需人工标注的用户界面训练数据生成方法，结合像素方法和大型语言模型，生成了335K个对话示例数据集。

ILuvUI通过结合像素方法和大型语言模型生成对话示例数据集，解决了UI任务中缺乏训练数据的问题。

生成的数据集包含335K个对话示例，涵盖问答、UI描述和规划。

模型的表现通过UI元素检测任务、响应质量评估以及多步骤UI导航和规划的应用进行评估。

ILuvUI的方法适用于任何UI截图数据集。

多模态视觉语言模型在UI任务上表现不佳的原因是缺乏足够的UI训练数据。

🏷️