使用 GPT4V+AI Agent 做自动 UI 测试的探索

💡 原文中文,约8000字,阅读约需20分钟。
📝

内容提要

本文探讨了使用GPT进行UI测试的可能性,介绍了目前UI测试存在的问题和两种解决方案。一种是使用GPT生成Webdriver驱动脚本,效果一般;另一种是结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现GPT像人一样思考和测试。文章还提到了一些问题和未来的想法。

🎯

关键要点

  • UI自动化测试一直是个难点,现有工具的投入产出比受到质疑。
  • 当前UI测试的主要问题包括元素识别效率低和图像工具复用性差。
  • 使用GPT进行UI测试的两种方案:生成Webdriver驱动脚本和模拟人类思考进行测试。
  • 第二种方案结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现更高效的测试。
  • Playwright用于浏览器操作,SoM视觉标记辅助GPT4V进行元素识别。
  • 通过GPT4和AutoGen协调控制测试过程,模拟人类的思维和操作。
  • 实验中发现GPT在中文环境下的识别效果不佳,需要优化提示语。
  • 未来的想法包括本地化处理图像识别和增强GPT的系统识别能力。
➡️

继续阅读