使用 GPT4V+AI Agent 做自动 UI 测试的探索 | 京东云技术团队

💡 原文中文,约8100字,阅读约需20分钟。
📝

内容提要

本文介绍了使用GPT自动进行UI测试的可能性,解决了UI测试自动化率高维护成本高的问题。作者尝试了两种方案,其中第二种方案结合了Playwright、SoM视觉标记、GPT4Vison和AutoGen来实现。通过Playwright进行浏览器操作,通过SoM视觉数据标记辅助GPT4V识别,通过GPT4+AutoGen协调控制。文章还提到了一些问题和未来的想法。

🎯

关键要点

  • UI自动化测试一直是Web测试的难点,维护成本高,自动化率低。
  • 当前UI测试主要问题包括元素识别困难和图像工具复用性差。
  • 尝试使用GPT进行UI测试,提出了两种方案,第一种效果一般,第二种更具潜力。
  • 第二种方案结合Playwright、SoM视觉标记、GPT4Vison和AutoGen,模拟人类思维进行测试。
  • 通过Playwright进行浏览器操作,SoM视觉标记辅助GPT4V识别,GPT4+AutoGen协调控制。
  • 使用Playwright注入JS进行页面操作,提升元素标记的准确性。
  • GPT4V通过分析标记的网页截图,生成操作步骤以完成特定任务。
  • AutoGen作为代理工具,协调多个LLM完成UI测试任务。
  • 当前实验中存在中文识别不友好、AutoGen调优问题和高成本等挑战。
  • 未来计划本地化处理图像识别请求,结合现有测试方法以减少Token消耗。
➡️

继续阅读