使用 GPT4V+AI Agent 做自动 UI 测试的探索
💡
原文中文,约8000字,阅读约需20分钟。
📝
内容提要
本文探讨了使用GPT进行UI测试的可能性,介绍了目前UI测试存在的问题和两种解决方案。一种是使用GPT生成Webdriver驱动脚本,效果一般;另一种是结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现GPT像人一样思考和测试。文章还提到了一些问题和未来的想法。
🎯
关键要点
- UI自动化测试一直是个难点,现有工具的投入产出比受到质疑。
- 当前UI测试的主要问题包括元素识别效率低和图像工具复用性差。
- 使用GPT进行UI测试的两种方案:生成Webdriver驱动脚本和模拟人类思考进行测试。
- 第二种方案结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现更高效的测试。
- Playwright用于浏览器操作,SoM视觉标记辅助GPT4V进行元素识别。
- 通过GPT4和AutoGen协调控制测试过程,模拟人类的思维和操作。
- 实验中发现GPT在中文环境下的识别效果不佳,需要优化提示语。
- 未来的想法包括本地化处理图像识别和增强GPT的系统识别能力。
🏷️
标签
➡️