💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
OpenClaw 新增两个功能:一是通过 Chrome DevTools 让 AI 操作浏览器,支持点击、输入和截图;二是多模态记忆,能记住图片和音频,支持跨模态搜索。配置简单,适用于社交媒体自动化和数据采集等场景。
🎯
关键要点
- OpenClaw 新增两个功能:通过 Chrome DevTools 让 AI 操作浏览器,支持点击、输入和截图;多模态记忆,能记住图片和音频,支持跨模态搜索。
- AI 通过 Chrome DevTools 直接操作浏览器,能够看到页面元素、网络请求、控制台日志等。
- 基础操作包括点击、输入、导航、截图、滚动、表单填写、文件上传和发送快捷键。
- 高级功能包括性能审计、性能追踪、内存快照、网络监控和执行 JavaScript 代码。
- 配置步骤包括开启 Chrome 远程调试、安装 mcporter、配置 MCP 服务器、启动 daemon 和验证连接。
- AI 可以用于社交媒体自动化、数据采集、自动化测试、调试助手、代填表单和监控页面变化。
- OpenClaw 的多模态记忆功能可以记住图片和音频,支持用文字搜索相关内容。
- 配置多模态记忆需要创建目录、修改配置文件和重启 OpenClaw。
- 注意事项包括只有指定目录的文件会被索引、必须关闭 fallback 选项和换模型会重建索引。
- 支持的文件格式包括多种图片和音频格式,单文件最大 10MB。
- 新功能使得 AI 能直接操作浏览器,记忆能力从文字扩展到图文音频,搜索方式更加灵活。
➡️