💡
原文英文,约2900词,阅读约需11分钟。
📝
内容提要
2024年4月,发布了Jina Reader,一个简单的API,可以将任何URL转换为LLM友好的markdown格式。使用无头Chrome浏览器获取网页源代码,然后利用Mozilla的Readability包提取主要内容,最后使用正则表达式和Turndown库将清理后的HTML转换为markdown。收到了关于内容质量的反馈,通过使用新的正则表达式模式或启发式方法解决了一些问题。发布了reader-lm-0.5b和reader-lm-1.5b,这两个SLMs专门用于从嘈杂的原始HTML直接生成干净的markdown。这两个模型在任务上取得了最先进的性能,同时只有它们的1/50大小。
🎯
关键要点
- 2024年4月发布了Jina Reader,一个将任何URL转换为LLM友好的markdown格式的API。
- 使用无头Chrome浏览器获取网页源代码,利用Mozilla的Readability包提取主要内容,并使用正则表达式和Turndown库将HTML转换为markdown。
- 发布后收到关于内容质量的反馈,部分用户认为内容过于详细或不够详细,解决方案包括使用新的正则表达式模式。
- 考虑使用小型语言模型(SLM)替代现有的正则表达式和启发式方法,以实现端到端的解决方案。
- SLM在数据清理任务中可能更具吸引力,尤其是在处理简单的HTML到markdown转换时。
- 发布了reader-lm-0.5b和reader-lm-1.5b两个专门训练的SLM,支持256K的上下文长度,且在任务上表现出色。
- Reader-LM在Azure和AWS即将上线,适合商业用途。
- 通过ROUGE-L、TER和WER等指标对Reader-LM的性能进行了定量评估,结果显示其在多个维度上优于大型语言模型。
- 进行了定性研究,评估了22个HTML源的转换效果,Reader-LM-1.5B在结构保留和markdown语法使用方面表现优异。
- 训练过程中采用了两阶段训练方法,确保高质量的训练数据,并解决了生成重复和循环的问题。
- 总结认为,Reader-LM是一个新颖的小型语言模型,旨在高效地将原始HTML转换为干净的markdown,仍有改进空间。
❓
延伸问答
Jina Reader的主要功能是什么?
Jina Reader的主要功能是将任何URL转换为LLM友好的markdown格式。
Reader-LM模型的参数大小和上下文长度是多少?
reader-lm-0.5b的参数为494M,reader-lm-1.5b的参数为1.54B,两者支持256K的上下文长度。
Reader-LM在性能评估中表现如何?
Reader-LM在ROUGE-L、TER和WER等指标上表现优于大型语言模型,尤其在结构保留和markdown语法使用方面表现优异。
如何使用Reader-LM进行HTML到Markdown的转换?
用户可以通过Google Colab运行示例笔记本,输入原始HTML,模型将自动转换为markdown格式。
Reader-LM的训练过程是怎样的?
Reader-LM采用了两阶段训练方法,确保高质量的训练数据,并解决生成重复和循环的问题。
Reader-LM的商业用途有哪些?
Reader-LM即将在Azure和AWS上线,适合商业用途,用户可以在这些平台上使用该模型。
➡️