量子位 ·

AI让手机任务自动跑起来！我国高校最新研究，简化移动设备操作

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

西安交通大学研究团队提出的VisionTasker方案，通过视觉理解和大语言模型，简化手机操作，特别帮助视障和老年用户完成多样化任务。实验结果显示，该方案在用户界面理解能力上优于传统方法。

🎯

🔎

VisionTasker方案结合了视觉理解和大语言模型，标志着移动任务自动化的技术进步。与传统方法相比，它消除了对视图层次结构的依赖，使得系统能够更灵活地适应不同的用户界面。这一创新不仅提升了用户体验，也为特殊需求群体提供了更好的支持。

VisionTasker特别适合视障人士和老年用户，帮助他们完成如导航、购物等复杂任务。这种技术的普及有望缩小数字鸿沟，使得更多人能够享受智能手机带来的便利，尤其是在日常生活中。

实验显示，VisionTasker在147个真实世界任务中，完成率与人类相当，甚至在某些情况下优于人类。这表明该技术在处理复杂任务时的有效性，未来可能在更多应用场景中得到推广。

❓

VisionTasker方案旨在简化手机操作，特别帮助视障和老年用户完成多样化任务。

VisionTasker通过视觉方法解析用户界面，识别元素并将其转换为自然语言描述。

实验显示，VisionTasker在147个真实世界任务中，完成率与人类相当，某些情况下优于人类。

VisionTasker在用户界面理解和任务执行方面优于传统方法，尤其在复杂任务中表现突出。

VisionTasker利用大语言模型根据用户指令和界面描述进行任务规划，将任务拆解为可执行步骤。

该研究已在2024年人机交互顶级会议UIST上发表。

🏷️