Jina AI ·

Reader-LM：用于清理和转换HTML为Markdown的小型语言模型

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

2024年4月，发布了Jina Reader，一个简单的API，可以将任何URL转换为LLM友好的markdown格式。使用无头Chrome浏览器获取网页源代码，然后利用Mozilla的Readability包提取主要内容，最后使用正则表达式和Turndown库将清理后的HTML转换为markdown。收到了关于内容质量的反馈，通过使用新的正则表达式模式或启发式方法解决了一些问题。发布了reader-lm-0.5b和reader-lm-1.5b，这两个SLMs专门用于从嘈杂的原始HTML直接生成干净的markdown。这两个模型在任务上取得了最先进的性能，同时只有它们的1/50大小。

🎯

关键要点

2024年4月发布了Jina Reader，一个将任何URL转换为LLM友好的markdown格式的API。
使用无头Chrome浏览器获取网页源代码，利用Mozilla的Readability包提取主要内容，并使用正则表达式和Turndown库将HTML转换为markdown。
发布后收到关于内容质量的反馈，部分用户认为内容过于详细或不够详细，解决方案包括使用新的正则表达式模式。
考虑使用小型语言模型（SLM）替代现有的正则表达式和启发式方法，以实现端到端的解决方案。
SLM在数据清理任务中可能更具吸引力，尤其是在处理简单的HTML到markdown转换时。
发布了reader-lm-0.5b和reader-lm-1.5b两个专门训练的SLM，支持256K的上下文长度，且在任务上表现出色。
Reader-LM在Azure和AWS即将上线，适合商业用途。
通过ROUGE-L、TER和WER等指标对Reader-LM的性能进行了定量评估，结果显示其在多个维度上优于大型语言模型。
进行了定性研究，评估了22个HTML源的转换效果，Reader-LM-1.5B在结构保留和markdown语法使用方面表现优异。
训练过程中采用了两阶段训练方法，确保高质量的训练数据，并解决了生成重复和循环的问题。
总结认为，Reader-LM是一个新颖的小型语言模型，旨在高效地将原始HTML转换为干净的markdown，仍有改进空间。

❓

延伸问答

Jina Reader的主要功能是什么？

Jina Reader的主要功能是将任何URL转换为LLM友好的markdown格式。

Reader-LM模型的参数大小和上下文长度是多少？

reader-lm-0.5b的参数为494M，reader-lm-1.5b的参数为1.54B，两者支持256K的上下文长度。

Reader-LM在性能评估中表现如何？

Reader-LM在ROUGE-L、TER和WER等指标上表现优于大型语言模型，尤其在结构保留和markdown语法使用方面表现优异。

如何使用Reader-LM进行HTML到Markdown的转换？

用户可以通过Google Colab运行示例笔记本，输入原始HTML，模型将自动转换为markdown格式。

Reader-LM的训练过程是怎样的？

Reader-LM采用了两阶段训练方法，确保高质量的训练数据，并解决生成重复和循环的问题。

Reader-LM的商业用途有哪些？

Reader-LM即将在Azure和AWS上线，适合商业用途，用户可以在这些平台上使用该模型。

🏷️