r11y:一行命令把网页变 Markdown

r11y:一行命令把网页变 Markdown

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。它提取网页中的结构化数据,减少 HTML 噪音,降低 token 数量。安装简单,支持命令行使用或作为 Clojure 库调用,能提取正文、链接、图片和元数据,适合处理服务端渲染页面。

🎯

关键要点

  • r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。

  • r11y 提取网页中的结构化数据,减少 HTML 噪音,降低 token 数量,节省成本并提高内容的可读性。

  • 该工具编译成原生二进制,冷启动时间约为 40ms,处理速度快,适合各种网页类型。

  • r11y 支持从 JSON-LD、OpenGraph 和 Twitter Card 等多种格式提取元数据,并能处理边缘情况。

  • 安装简单,支持 macOS 和 Linux,基本用法为一行命令即可输出 Markdown。

  • r11y 也可以作为 Clojure 库调用,返回结构化数据,方便进一步处理。

  • r11y 不执行 JavaScript,适合服务端渲染页面,但 SPA 应用需先获取 HTML 后再使用。

延伸问答

r11y 是什么工具?

r11y 是一个命令行工具,可以将网页 URL 转换为干净的 Markdown 格式,运行速度快,适合 LLM 和 Agent 场景。

使用 r11y 的主要好处是什么?

使用 r11y 可以减少 HTML 噪音,降低 token 数量,从而节省成本并提高内容的可读性。

如何安装 r11y?

可以通过 brew 安装,命令为 brew install dazld/tap/r11y,或者从 GitHub Releases 页下载静态二进制。

r11y 支持哪些元数据提取格式?

r11y 支持从 JSON-LD、OpenGraph 和 Twitter Card 等多种格式提取元数据。

r11y 的处理速度如何?

r11y 的冷启动时间约为 40ms,处理速度快,适合各种网页类型。

r11y 是否支持 JavaScript?

r11y 不执行 JavaScript,适合服务端渲染页面,但 SPA 应用需先获取 HTML 后再使用。

➡️

继续阅读