💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
Jina Reader-LM 是一种将 HTML 转换为 Markdown 的语言模型,支持 256k 和 512k 的上下文长度。它通过无头 Chrome 提取网页内容,利用 Readability 和正则表达式清理 HTML,生成结构良好的 Markdown 文件。新版本 V2 提升了输出格式和性能,适合大规模内容转换任务。
🎯
关键要点
- Jina Reader-LM 是一种将 HTML 转换为 Markdown 的语言模型,支持256k和512k的上下文长度。
- 该模型通过无头 Chrome 提取网页内容,利用 Readability 和正则表达式清理 HTML,生成结构良好的 Markdown 文件。
- 2024年4月,Jina推出了一个API,可以将任意HTML网页转换为Markdown格式文本。
- Reader-LM的第一代模型于2024年9月推出,支持256k的上下文长度,性能优于许多商业模型。
- 最近发布的V2版本将上下文长度提升至512k,输出格式支持Markdown和JSON。
- ReaderLM-v2基于Qwen2.5-1.5B-Instruction进行训练,支持29种语言。
- Jina创建了html-markdown-1m数据集,包含一百万个HTML文档,用于训练模型。
- 模型训练过程中采用了迭代方法,确保数据质量符合结构化数据提取标准。
- 使用ReaderLM时,建议先剔除不必要的内容,以提高处理效率和质量。
➡️