内容提要
r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。它提取网页中的结构化数据,减少 HTML 噪音,降低 token 数量。安装简单,支持命令行使用或作为 Clojure 库调用,能提取正文、链接、图片和元数据,适合处理服务端渲染页面。
关键要点
-
r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。
-
r11y 提取网页中的结构化数据,减少 HTML 噪音,降低 token 数量,节省成本并提高内容的可读性。
-
该工具编译成原生二进制,冷启动时间约为 40ms,处理速度快,适合各种网页类型。
-
r11y 支持从 JSON-LD、OpenGraph 和 Twitter Card 等多种格式提取元数据,并能处理边缘情况。
-
安装简单,支持 macOS 和 Linux,基本用法为一行命令即可输出 Markdown。
-
r11y 也可以作为 Clojure 库调用,返回结构化数据,方便进一步处理。
-
r11y 不执行 JavaScript,适合服务端渲染页面,但 SPA 应用需先获取 HTML 后再使用。
延伸问答
r11y 是什么工具?
r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。
使用 r11y 的主要好处是什么?
使用 r11y 可以减少 HTML 噪音,降低 token 数量,从而节省成本并提高内容的可读性。
如何安装 r11y?
可以通过 brew 安装,命令为 brew install dazld/tap/r11y,或者从 GitHub Releases 页下载静态二进制。
r11y 支持哪些元数据提取格式?
r11y 支持从 JSON-LD、OpenGraph 和 Twitter Card 等多种格式提取元数据。
r11y 的处理速度如何?
r11y 的冷启动时间约为 40ms,处理速度快,适合各种网页类型。
r11y 是否支持 JavaScript?
r11y 不执行 JavaScript,适合服务端渲染页面,但 SPA 应用需先获取 HTML 后再使用。