Reader-LM:用于清理和转换HTML为Markdown的小型语言模型

Reader-LM:用于清理和转换HTML为Markdown的小型语言模型

💡 原文英文,约2900词,阅读约需11分钟。
📝

内容提要

2024年4月,发布了Jina Reader,一个简单的API,可以将任何URL转换为LLM友好的markdown格式。使用无头Chrome浏览器获取网页源代码,然后利用Mozilla的Readability包提取主要内容,最后使用正则表达式和Turndown库将清理后的HTML转换为markdown。收到了关于内容质量的反馈,通过使用新的正则表达式模式或启发式方法解决了一些问题。发布了reader-lm-0.5b和reader-lm-1.5b,这两个SLMs专门用于从嘈杂的原始HTML直接生成干净的markdown。这两个模型在任务上取得了最先进的性能,同时只有它们的1/50大小。

🎯

关键要点

  • 2024年4月发布了Jina Reader,一个将任何URL转换为LLM友好的markdown格式的API。
  • 使用无头Chrome浏览器获取网页源代码,利用Mozilla的Readability包提取主要内容,并使用正则表达式和Turndown库将HTML转换为markdown。
  • 发布后收到关于内容质量的反馈,部分用户认为内容过于详细或不够详细,解决方案包括使用新的正则表达式模式。
  • 考虑使用小型语言模型(SLM)替代现有的正则表达式和启发式方法,以实现端到端的解决方案。
  • SLM在数据清理任务中可能更具吸引力,尤其是在处理简单的HTML到markdown转换时。
  • 发布了reader-lm-0.5b和reader-lm-1.5b两个专门训练的SLM,支持256K的上下文长度,且在任务上表现出色。
  • Reader-LM在Azure和AWS即将上线,适合商业用途。
  • 通过ROUGE-L、TER和WER等指标对Reader-LM的性能进行了定量评估,结果显示其在多个维度上优于大型语言模型。
  • 进行了定性研究,评估了22个HTML源的转换效果,Reader-LM-1.5B在结构保留和markdown语法使用方面表现优异。
  • 训练过程中采用了两阶段训练方法,确保高质量的训练数据,并解决了生成重复和循环的问题。
  • 总结认为,Reader-LM是一个新颖的小型语言模型,旨在高效地将原始HTML转换为干净的markdown,仍有改进空间。

延伸问答

Jina Reader的主要功能是什么?

Jina Reader的主要功能是将任何URL转换为LLM友好的markdown格式。

Reader-LM模型的参数大小和上下文长度是多少?

reader-lm-0.5b的参数为494M,reader-lm-1.5b的参数为1.54B,两者支持256K的上下文长度。

Reader-LM在性能评估中表现如何?

Reader-LM在ROUGE-L、TER和WER等指标上表现优于大型语言模型,尤其在结构保留和markdown语法使用方面表现优异。

如何使用Reader-LM进行HTML到Markdown的转换?

用户可以通过Google Colab运行示例笔记本,输入原始HTML,模型将自动转换为markdown格式。

Reader-LM的训练过程是怎样的?

Reader-LM采用了两阶段训练方法,确保高质量的训练数据,并解决生成重复和循环的问题。

Reader-LM的商业用途有哪些?

Reader-LM即将在Azure和AWS上线,适合商业用途,用户可以在这些平台上使用该模型。

➡️

继续阅读