2024年4月,发布了Jina Reader,一个简单的API,可以将任何URL转换为LLM友好的markdown格式。使用无头Chrome浏览器获取网页源代码,然后利用Mozilla的Readability包提取主要内容,最后使用正则表达式和Turndown库将清理后的HTML转换为markdown。收到了关于内容质量的反馈,通过使用新的正则表达式模式或启发式方法解决了一些问题。发布了reader-lm-0.5b和reader-lm-1.5b,这两个SLMs专门用于从嘈杂的原始HTML直接生成干净的markdown。这两个模型在任务上取得了最先进的性能,同时只有它们的1/50大小。
最近出现了两种与大型语言模型(LLM)相关的爬虫框架:Jina Reader和ScrapeGraphAI。Jina Reader是一个开源工具,通过HTTP服务抓取网页并解析为对LLM友好的格式,如Markdown。ScrapeGraphAI结合LLM和工作流,创建用于抓取网站和文档的管道,支持复杂任务的处理。这些工具展示了LLM对爬虫技术的影响与新发展。
完成下面两步后,将自动完成登录并继续当前操作。