使用 GPT4V+AI Agent 做自动 UI 测试的探索
原文中文,约8000字,阅读约需20分钟。发表于: 。新的方案主要结合 Playwright,SoM视觉标记,GPT4Vison,GPT4,AutoGen来实现。主要的原理通过 Playwright进行浏览器操作,包括页面图像的获取、浏览器的各种操作,相当于‘‘手’’;进行SoM 视觉数据标记,因为 GPT4Vison 在进行页面原始识别时并不是很准确,参考微软的论文可以通过视觉标记的手段来辅助 GPT4V...
本文探讨了使用GPT进行UI测试的可能性,介绍了目前UI测试存在的问题和两种解决方案。一种是使用GPT生成Webdriver驱动脚本,效果一般;另一种是结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现GPT像人一样思考和测试。文章还提到了一些问题和未来的想法。