Jina Reader-LM 将HTML转为Markdown的语言模型

Jina Reader-LM 将HTML转为Markdown的语言模型

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

Jina Reader-LM 是一种将 HTML 转换为 Markdown 的语言模型,支持 256k 和 512k 的上下文长度。它通过无头 Chrome 提取网页内容,利用 Readability 和正则表达式清理 HTML,生成结构良好的 Markdown 文件。新版本 V2 提升了输出格式和性能,适合大规模内容转换任务。

🎯

关键要点

  • Jina Reader-LM 是一种将 HTML 转换为 Markdown 的语言模型,支持256k和512k的上下文长度。
  • 该模型通过无头 Chrome 提取网页内容,利用 Readability 和正则表达式清理 HTML,生成结构良好的 Markdown 文件。
  • 2024年4月,Jina推出了一个API,可以将任意HTML网页转换为Markdown格式文本。
  • Reader-LM的第一代模型于2024年9月推出,支持256k的上下文长度,性能优于许多商业模型。
  • 最近发布的V2版本将上下文长度提升至512k,输出格式支持Markdown和JSON。
  • ReaderLM-v2基于Qwen2.5-1.5B-Instruction进行训练,支持29种语言。
  • Jina创建了html-markdown-1m数据集,包含一百万个HTML文档,用于训练模型。
  • 模型训练过程中采用了迭代方法,确保数据质量符合结构化数据提取标准。
  • 使用ReaderLM时,建议先剔除不必要的内容,以提高处理效率和质量。
➡️

继续阅读