小红花·文摘

本文探讨了使用GPT进行UI测试的可能性，介绍了目前UI测试存在的问题和两种解决方案。一种是使用GPT生成Webdriver驱动脚本，效果一般；另一种是结合Playwright、SoM视觉标记、GPT4Vison和AutoGen实现GPT像人一样思考和测试。文章还提到了一些问题和未来的想法。

使用 GPT4V+AI Agent 做自动 UI 测试的探索

京东科技开发者 ·

大规模语言模型推动了人工智能，尤其在遥感领域。研究构建了高质量的遥感图像字幕数据集RSICap，促进了视觉语言模型的评估。SkyEyeGPT和EarthGPT等模型在遥感任务中表现优越，解决了专业知识缺乏的问题。

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

BriefGPT - AI 论文速递 ·

基于LlamaIndex和LanceDB的多模态RAG视频处理技术

Blog on LlamaIndex ·

该文章介绍了ShareGPT4V数据集，包含120万条高度描述性的标题，用于多模态模型的训练和性能提升。通过在该数据集上训练，可以显著提高模型在基准测试中的表现。该数据集可通过链接获取，促进多模态模型领域的发展。

Rec-GPT4V：大型视觉语言模型的多模态推荐

BriefGPT - AI 论文速递 ·

本文介绍了使用GPT自动进行UI测试的可能性，解决了UI测试自动化率高维护成本高的问题。作者尝试了两种方案，其中第二种方案结合了Playwright、SoM视觉标记、GPT4Vison和AutoGen来实现。通过Playwright进行浏览器操作，通过SoM视觉数据标记辅助GPT4V识别，通过GPT4+AutoGen协调控制。文章还提到了一些问题和未来的想法。

使用 GPT4V+AI Agent 做自动 UI 测试的探索 | 京东云技术团队

京东科技开发者 ·