Exploring Automated UI Testing with GPT4V+AI Agent | JD Cloud Technology Team
原文英文,约700词,阅读约需3分钟。发表于: 。新的方案主要结合 Playwright,SoM视觉标记,GPT4Vison,GPT4,AutoGen来实现。主要的原理通过 Playwright进行浏览器操作,包括页面图像的获取、浏览器的各种操作,相当于‘‘手’’;进行SoM 视觉数据标记,因为 GPT4Vison 在进行页面原始识别时并不是很准确,参考微软的论文可以通过视觉标记的手段来辅助 GPT4V...
本文介绍了使用GPT自动进行UI测试的可能性,解决了UI测试自动化率高维护成本高的问题。作者尝试了两种方案,其中第二种方案结合了Playwright、SoM视觉标记、GPT4Vison和AutoGen来实现。通过Playwright进行浏览器操作,通过SoM视觉数据标记辅助GPT4V识别,通过GPT4+AutoGen协调控制。文章还提到了一些问题和未来的想法。