使用 GPT4V+AI Agent 做自动 UI 测试的探索 | 京东云技术团队
💡
原文中文,约8100字,阅读约需20分钟。
📝
内容提要
本文介绍了使用GPT自动进行UI测试的可能性,解决了UI测试自动化率高维护成本高的问题。作者尝试了两种方案,其中第二种方案结合了Playwright、SoM视觉标记、GPT4Vison和AutoGen来实现。通过Playwright进行浏览器操作,通过SoM视觉数据标记辅助GPT4V识别,通过GPT4+AutoGen协调控制。文章还提到了一些问题和未来的想法。
🎯
关键要点
- UI自动化测试一直是Web测试的难点,维护成本高,自动化率低。
- 当前UI测试主要问题包括元素识别困难和图像工具复用性差。
- 尝试使用GPT进行UI测试,提出了两种方案,第一种效果一般,第二种更具潜力。
- 第二种方案结合Playwright、SoM视觉标记、GPT4Vison和AutoGen,模拟人类思维进行测试。
- 通过Playwright进行浏览器操作,SoM视觉标记辅助GPT4V识别,GPT4+AutoGen协调控制。
- 使用Playwright注入JS进行页面操作,提升元素标记的准确性。
- GPT4V通过分析标记的网页截图,生成操作步骤以完成特定任务。
- AutoGen作为代理工具,协调多个LLM完成UI测试任务。
- 当前实验中存在中文识别不友好、AutoGen调优问题和高成本等挑战。
- 未来计划本地化处理图像识别请求,结合现有测试方法以减少Token消耗。
➡️