模型增强的基于 LLM 的 VUI 测试 VPA 应用程序
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究利用语言模型和视觉模型解决移动设备控制挑战,通过与用户界面交互,模拟人类交互并与设备上的应用程序进行交互。方法经过基准测试验证了有效性和潜力。
🎯
关键要点
- 本研究利用大型语言模型和视觉语言模型解决数字助理执行用户任务的挑战。
- 研究特别关注基于指令的移动设备控制领域。
- 模型通过与用户界面交互,利用设备屏幕的视觉输入,模拟人类交互。
- 代理能够与设备上的任何应用程序进行交互,支持点击和滑动等手势。
- 与以往方法不同,模型通过过去截图序列和相应操作生成视觉语言句子。
- 在“Android in the Wild”基准测试中评估方法,表明其有效性和潜力。
➡️