Jina AI ·

ReaderLM v2：前沿小型语言模型用于HTML到Markdown和JSON的转换

💡 原文英文，约3400词，阅读约需13分钟。

📝

内容提要

2024年4月推出的Jina Reader API能够将网页转换为适合LLM的Markdown。新一代ReaderLM-v2模型拥有1.5B参数，支持29种语言，能够高效处理长文本和复杂Markdown语法，提高HTML到Markdown和JSON的转换准确性。

🎯

关键要点

2024年4月推出的Jina Reader API可以将网页转换为适合LLM的Markdown。
ReaderLM-v2模型拥有1.5B参数，支持29种语言，能够高效处理长文本和复杂Markdown语法。
ReaderLM-v2能够处理最多512K的输入和输出长度，提供多语言支持。
新模型在处理长文本和Markdown语法生成方面有显著提升，采用真正的翻译过程而非选择性复制。
ReaderLM-v2在HTML到Markdown转换中保持了原始信息的完整性，并智能地结构化内容。
新模型解决了长序列生成中的重复和循环问题，性能在不同上下文长度下保持一致。
ReaderLM-v2支持直接从HTML生成JSON，简化了数据提取流程。
在定量和定性评估中，ReaderLM-v2在HTML到Markdown任务中超越了更大模型的表现。
ReaderLM-v2-pro是为企业客户保留的高级检查点，具有额外的训练和优化。
手动评估涵盖了多种HTML来源，评估内容完整性、结构准确性和格式合规性。
ReaderLM-v2在复杂元素识别方面表现出色，尤其是在处理LaTeX公式和嵌套列表时。
模型训练采用了三步数据生成流程，确保训练数据的高质量。
ReaderLM-v2的训练过程结合了长上下文预训练和监督微调，提升了模型的输出质量。
通过自我游戏强化调优，模型能够持续改进其输出的准确性和结构性。
未来计划扩展多模态能力，特别是针对扫描文档的优化。

❓

延伸问答

ReaderLM v2的主要功能是什么？

ReaderLM v2能够将HTML转换为Markdown和JSON，支持多种语言，并提高了长文本处理的准确性。

ReaderLM v2与前一版本相比有哪些显著改进？

ReaderLM v2在处理长文本和Markdown语法生成方面有显著提升，采用真正的翻译过程，减少了重复和循环问题。

如何使用ReaderLM v2进行HTML到JSON的转换？

用户可以直接从HTML生成JSON，按照指定的JSON模式提取信息，简化数据提取流程。

ReaderLM v2支持哪些语言？

ReaderLM v2支持29种语言，包括英语、中文、日语、法语等。

ReaderLM v2如何处理复杂的Markdown语法？

ReaderLM v2能够生成复杂的Markdown元素，如代码块、嵌套列表和LaTeX公式，表现出色。

ReaderLM v2的训练过程是怎样的？

ReaderLM v2的训练采用三步数据生成流程，结合长上下文预训练和监督微调，确保高质量输出。

🏷️

标签

HTML转换 Jina Reader API Markdown ReaderLM-v2 html json 多语言支持小型语言模型

➡️

继续阅读

Astro 中通过 Remark 插件兼容自定义语法
博主在将博客从Hexo迁移到Astro时，遇到自定义Markdown语法兼容问题。通过Remark插件，成功将Live Photo和APlayer标签在构...
谷歌OKF开放知识格式：卡帕西LLM Wiki有了标准！
谷歌发布的开放知识格式（OKF）通过简单的Markdown和YAML结构，解决信息碎片化问题。该格式强调极少的强制规定、生产与消费分离，且供应商中立。文章...
Toots 423 2026 Jun.7 - Jun.13
文章讨论了个性化医疗的“N-of-1”形式，强调通过数据驱动的方法为患者提供最佳治疗方案。同时警惕消费主义的陷阱和传统工业化加工的风险，探讨技术在冶金和生...
architect-loop：把Claude当建筑师 GPT当工人仓库即记忆
architect-loop是一个协作框架，将AI模型分为建筑师（Claude Fable）和工人（GPT-5.5 Codex）。通过规格说明、验收标准和...
Cloudflare Email Worker 踩坑实录：三个你一定会遇到的问题
本文讨论了使用Cloudflare Email Worker处理邮件自动化时的三个主要问题：1. message.forward()无法转发到同一Work...
验证工程：从 Vibe 硬件编程 Loop 到自迭代验证
文章探讨了AI在传统行业软件开发中的应用，特别是在硬件开发的验证工程方面。作者使用ESP32开发板，尝试利用AI自动化代码生成和验证过程。尽管AI能够快速...