💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
字节的 Midscene.js 是一款支持多模态模型的前端自动化测试插件,适合爬虫开发。它提供三大 API:Action、Query 和 Assert,分别用于执行交互、提取数据和进行断言。用户可通过 Chrome 商店安装和配置,项目成本逐渐降低。
🎯
关键要点
- 字节的 Midscene.js 是一款前端自动化测试插件,适合爬虫开发。
- Midscene.js 提供三大 API:Action、Query 和 Assert。
- Action API 用于描述步骤并执行交互。
- Query API 用于从 UI 中提取数据,返回 JSON 格式。
- Assert API 用于判断是否符合指定条件。
- 项目最初仅支持 GPT-4o 模型,后续支持 Qwen-2.5-VL 和 UI-TARS,成本降低。
- 用户可以从 Chrome 商店安装 Midscene.js。
- 配置需要设置 OPENAI_BASE_URL、OPENAI_API_KEY、MIDSCENE_MODEL_NAME 和 MIDSCENE_USE_QWEN_VL。
- 用户需申请 OPENAI_API_KEY,阿里云新用户有免费额度。
- 可以用自然语言指令测试插件功能。
- 通过组合三大 API 编写爬虫,完成复杂的自动化任务。
- 示例代码展示如何使用 Midscene.js 进行搜索并输出结果。
❓
延伸问答
Midscene.js 是什么?
Midscene.js 是字节推出的一款前端自动化测试插件,适合爬虫开发。
Midscene.js 提供了哪些主要 API?
Midscene.js 提供三大 API:Action、Query 和 Assert。
如何安装 Midscene.js?
用户可以直接从 Chrome 商店安装 Midscene.js。
如何配置 Midscene.js 的环境变量?
需要设置 OPENAI_BASE_URL、OPENAI_API_KEY、MIDSCENE_MODEL_NAME 和 MIDSCENE_USE_QWEN_VL。
使用 Midscene.js 进行爬虫开发的基本步骤是什么?
可以通过组合三大 API 编写爬虫,完成复杂的自动化任务。
Midscene.js 的成本如何变化?
最初仅支持 GPT-4o 模型,成本较高,后续支持 Qwen-2.5-VL 和 UI-TARS,成本大幅降低。
➡️