凡人小北 · 转角处 ·

OpenClaw 2026.3.13：让 AI 原生操作你的浏览器，记住你的图片

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

OpenClaw 新增两个功能：一是通过 Chrome DevTools 让 AI 操作浏览器，支持点击、输入和截图；二是多模态记忆，能记住图片和音频，支持跨模态搜索。配置简单，适用于社交媒体自动化和数据采集等场景。

🎯

OpenClaw 新增两个功能：通过 Chrome DevTools 让 AI 操作浏览器，支持点击、输入和截图；多模态记忆，能记住图片和音频，支持跨模态搜索。
AI 通过 Chrome DevTools 直接操作浏览器，能够看到页面元素、网络请求、控制台日志等。
基础操作包括点击、输入、导航、截图、滚动、表单填写、文件上传和发送快捷键。
高级功能包括性能审计、性能追踪、内存快照、网络监控和执行 JavaScript 代码。
配置步骤包括开启 Chrome 远程调试、安装 mcporter、配置 MCP 服务器、启动 daemon 和验证连接。
AI 可以用于社交媒体自动化、数据采集、自动化测试、调试助手、代填表单和监控页面变化。
OpenClaw 的多模态记忆功能可以记住图片和音频，支持用文字搜索相关内容。
配置多模态记忆需要创建目录、修改配置文件和重启 OpenClaw。
注意事项包括只有指定目录的文件会被索引、必须关闭 fallback 选项和换模型会重建索引。
支持的文件格式包括多种图片和音频格式，单文件最大 10MB。
新功能使得 AI 能直接操作浏览器，记忆能力从文字扩展到图文音频，搜索方式更加灵活。

🔎

OpenClaw 通过 Chrome DevTools 让 AI 直接操作浏览器，极大提升了自动化的效率。用户可以利用这一功能进行社交媒体管理、数据采集等，减少手动操作的时间和精力。尤其在需要频繁交互的场景中，AI 的直接操作能够显著提高工作效率。

OpenClaw 的多模态记忆功能允许 AI 记住图片和音频，支持跨模态搜索。这一功能使得信息检索更加灵活，用户可以通过文字描述找到相关的视觉或听觉资料。然而，用户需注意只有指定目录下的文件会被索引，且必须关闭 fallback 选项，这可能限制了某些用户的使用体验。

在配置 OpenClaw 的新功能时，用户需遵循特定步骤，包括开启 Chrome 远程调试和安装 mcporter。特别是，确保 daemon 常驻后台可以显著提高响应速度。此外，用户在修改配置文件时需谨慎，错误的设置可能导致功能无法正常使用。

❓

OpenClaw 新增了通过 Chrome DevTools 让 AI 操作浏览器和多模态记忆功能，支持记住图片和音频。

需要开启 Chrome 远程调试，安装 mcporter，配置 MCP 服务器，启动 daemon 并验证连接。

多模态记忆功能能记住图片和音频，通过创建索引支持用文字搜索相关内容。

可以用于社交媒体自动化、数据采集、自动化测试、调试助手、代填表单和监控页面变化。

需要确保只有指定目录的文件会被索引，关闭 fallback 选项，并注意换模型会重建索引。

支持的图片格式包括 jpg, jpeg, png, webp, gif 等，音频格式包括 mp3, wav, ogg 等，单文件最大 10MB。

🏷️