2 分钟构建网页爬虫:0 基础轻松完成! | 开源日报 No.426

2 分钟构建网页爬虫:0 基础轻松完成! | 开源日报 No.426

💡 原文中文,约900字,阅读约需2分钟。
📝

内容提要

maxun 是一个开源无代码网页数据提取平台,用户可以快速构建数据抓取机器人。highstorm 提供高效的事件监控,支持多种服务集成。alignment-handbook 提供语言模型训练配方,idurar-erp-crm 是开源的 ERP/CRM 软件,解决发票管理问题。pr-agent 实现自动化分析拉取请求。

🎯

关键要点

  • maxun 是一个开源无代码网页数据提取平台,用户可以快速构建数据抓取机器人。
  • 支持快速训练机器人,仅需 2 分钟即可开始自动抓取网页。
  • 提供多种数据捕获方式,包括列表、文本和截图,适合各种网站的数据提取需求。
  • highstorm 是一个开源事件监控工具,支持多种第三方服务集成,易于上手。
  • 具备时间序列数据库支持,适合处理动态数据。
  • alignment-handbook 提供语言模型训练配方,支持继续预训练和有监督微调。
  • 提供了复制 Zephyr 7B 等模型的配方,并包含训练和评估模型的脚本。
  • idurar-erp-crm 是开源的 ERP/CRM 软件,解决发票管理问题,支持客户信息管理。
  • 基于 Ant Design 框架,界面友好且易于使用,完全开源可用于个人或商业用途。
  • pr-agent 是一个自动化分析拉取请求的工具,提供 AI 驱动的反馈与建议。
➡️

继续阅读