小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
构建真正有效的专业网页抓取工具

这篇文章介绍了一个全栈网页抓取课程,旨在帮助用户绕过现代网站的反自动化检测。课程由Gavin Lon开发,内容涵盖使用Playwright和Cheerio工具、配置住宅代理和浏览器指纹,以及构建可视化实时数据的MERN应用。课程在freeCodeCamp.org的YouTube频道上提供,时长6小时。

构建真正有效的专业网页抓取工具

freeCodeCamp.org
freeCodeCamp.org · 2026-05-29T15:19:17Z
Firecrawl加入Vercel市场

Firecrawl现已在Vercel市场上线,帮助开发者利用结构化网页数据支持AI代理和应用。该工具能够将网页抓取为markdown、HTML或结构化数据,支持单次调用检索完整页面内容,并与动态网站互动。

Firecrawl加入Vercel市场

Vercel News
Vercel News · 2026-05-26T00:00:00Z

Obscura是一个用Rust开发的无头浏览器,专为AI Agent和网页抓取设计。与Headless Chrome相比,Obscura内存占用更低(30MB对比200MB+),并具备内置反检测能力,避免被网站识别。它兼容Chrome DevTools协议,便于与现有自动化工具(如Puppeteer)对接,旨在提升AI Agent的操作效率,降低成本,适合个人项目和原型开发。

Obscura:为AI Agent而生的Rust无头浏览器

dotNET跨平台
dotNET跨平台 · 2026-05-22T00:00:00Z
第732期:网页抓取、Altair图表、OpenAI的API及更多(2026年4月28日)

文章比较了browser-use和Playwright在网页抓取中的应用。通过构建Hacker News合成器展示了browser-use的优势,但在复杂的Newegg抓取任务中表现不佳。分析了选择这两种工具的最佳时机。

第732期:网页抓取、Altair图表、OpenAI的API及更多(2026年4月28日)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-04-28T19:30:00Z
被低估的 .NET 开源项目:AngleSharp,优雅的 HTML 解析神器

AngleSharp 是一个基于 .NET 的开源库,用于解析 HTML、CSS 和 DOM,遵循 Web 标准,提供与现代浏览器一致的解析行为。它支持强大的 CSS 选择器,易于使用,适合网页数据抓取和 DOM 操作。通过 NuGet 引入后,开发者可以方便地解析 HTML 和操作文档对象,适合需要精细化网页处理的项目。

被低估的 .NET 开源项目:AngleSharp,优雅的 HTML 解析神器

dotNET跨平台
dotNET跨平台 · 2026-04-27T00:02:44Z
洪绘存图发布:保存浏览器图片为指定格式、提取网页所有图片、屏幕截图插件

作者开发了《洪绘存图》插件,满足图片保存、网页抓取和截图需求,支持多种常见格式,具备轻量级抓取功能和网页截图。

洪绘存图发布:保存浏览器图片为指定格式、提取网页所有图片、屏幕截图插件

张洪Heo
张洪Heo · 2026-03-29T06:41:52Z
基于Amazon Bedrock 上实现 Dynamic Filtering Web Search 与 Web Fetch

本文介绍了如何在Amazon Bedrock上实现动态过滤的Web搜索和网页抓取功能。通过自建Proxy服务,用户可以利用Claude模型进行实时搜索和抓取,支持动态过滤以提高查询准确性。该方案兼容Anthropic官方API,允许无缝迁移,且无需修改客户端代码。文章还探讨了实现原理、架构设计及其优势,包括降低Token消耗和提升推理效率。

基于Amazon Bedrock 上实现 Dynamic Filtering Web Search 与 Web Fetch

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-23T05:20:44Z
数据科学项目的十大免费API提供商

本文介绍了10个免费的API,帮助数据科学项目获取高质量实时数据,涵盖基础数据存储、网页抓取、地理天气、金融市场和社交社区数据,便于快速选择和使用。

数据科学项目的十大免费API提供商

KDnuggets
KDnuggets · 2025-09-19T12:00:16Z
通过Bright Data和LlamaIndex为AI代理提供网络访问

大型语言模型因依赖过时数据,无法及时捕捉当前事件。Bright Data提供AI-ready的网络数据基础设施,支持网页抓取和商业智能。通过与LlamaIndex集成,AI代理可实时访问相关数据,执行数据提取和网页搜索等任务。

通过Bright Data和LlamaIndex为AI代理提供网络访问

Blog on LlamaIndex
Blog on LlamaIndex · 2025-08-14T00:00:00Z
与Oxylabs和LlamaIndex构建更智能的AI代理

Oxylabs与LlamaIndex结合,提供高效网页抓取解决方案,降低LLM网络搜索成本。用户可通过安装Python包,轻松抓取Google、Amazon和YouTube数据,构建实时搜索代理,获取最新信息,为开发网络应用奠定基础。

与Oxylabs和LlamaIndex构建更智能的AI代理

Blog on LlamaIndex
Blog on LlamaIndex · 2025-07-28T00:00:00Z
GoLogin:开发者的多账户浏览器管理与网页抓取指南

GoLogin是一款反检测浏览器,帮助开发者管理多个浏览器配置文件,适用于网页抓取和多账户管理。它通过修改浏览器指纹,确保每个配置文件看起来像不同用户,适合社交媒体自动化、隐私保护和QA测试。GoLogin支持API集成,兼容Selenium和Puppeteer,并提供灵活的定价和免费试用。

GoLogin:开发者的多账户浏览器管理与网页抓取指南

DEV Community
DEV Community · 2025-05-30T09:08:11Z
什么是数据抓取?详细指南

数据抓取是自动从网站提取数据的过程,旨在将非结构化数据转化为可分析格式。主要步骤包括发送请求、获取网页、解析HTML、提取数据和存储。数据抓取可分为网页抓取、API抓取、屏幕抓取和社交媒体抓取,广泛应用于市场研究、情感分析和商业智能等领域。抓取时需遵循法律和道德规范,避免违反服务条款和数据隐私。

什么是数据抓取?详细指南

DEV Community
DEV Community · 2025-05-05T09:45:17Z
轻松获取AP新闻数据的方法

AP新闻是美联社的新闻平台,ScrapeStorm是一款支持Windows、Mac和Linux的人工智能网页抓取工具,用户可创建抓取任务、配置规则,并将数据导出为Excel和CSV等多种格式。

轻松获取AP新闻数据的方法

DEV Community
DEV Community · 2025-04-30T02:37:18Z
AI应用中的文档加载、解析与清理

本文介绍了如何为智能应用加载、解析和清理文档,强调数据清洁的重要性,遵循“垃圾进,垃圾出”的原则。涵盖数据收集、文本提取、元数据提取和网页抓取等技术,旨在将原始文档转化为结构化数据,提高AI应用的准确性和可靠性。

AI应用中的文档加载、解析与清理

DEV Community
DEV Community · 2025-04-24T18:50:55Z
Python中使用Parsel的终极网页抓取指南

本博客介绍了如何使用Python的Parsel库进行网页抓取,支持XPath和CSS选择器,便于提取HTML数据。内容包括环境设置、数据提取、处理复杂HTML结构以及数据清洗与保存,适合初学者和轻量工具用户。

Python中使用Parsel的终极网页抓取指南

DEV Community
DEV Community · 2025-04-11T13:16:30Z
网页抓取:数据科学中的关键工具

网页抓取是一种从网站提取大量数据的技术,广泛应用于数据科学领域。

网页抓取:数据科学中的关键工具

DEV Community
DEV Community · 2025-04-04T17:33:36Z
如何在AWS Lambda上运行Puppeteer

在AWS Lambda上运行Puppeteer可以实现无服务器网页抓取,但需应对执行时间和内存限制。通过优化设置,可以构建可靠的解决方案。本文提供了Puppeteer在AWS Lambda上的安装指南和示例代码,并介绍了CaptureKit作为管理解决方案的替代选项。

如何在AWS Lambda上运行Puppeteer

DEV Community
DEV Community · 2025-03-28T13:13:35Z
我如何在1小时内用Python学习网页抓取

本文介绍了如何在1小时内学习网页抓取,适用于价格比较和数据收集等场景。作者通过FreeCodeCamp的Python课程,使用BeautifulSoup和Requests库实践抓取YouTube频道信息,发现网页抓取简单易学,特别适合初学者。

我如何在1小时内用Python学习网页抓取

DEV Community
DEV Community · 2025-03-24T22:12:38Z
TikTok API综合指南

TikTok已成为热门社交媒体平台,提供多种API供开发者使用,如登录、分享和内容发布API。这些API帮助企业和研究者获取数据,但访问受到限制。网页抓取是另一种获取数据的方法,但存在法律和技术风险。理解这些工具及其限制对数据整合和分析至关重要。

TikTok API综合指南

DEV Community
DEV Community · 2025-03-20T22:54:18Z

数据是数据科学和人工智能的核心。网页抓取是从网站提取数据的过程,常用Python库包括BeautifulSoup、Selenium和Scrapy。本文介绍了如何使用BeautifulSoup库抓取http://quotes.toscrape.com网站的数据并保存为CSV文件。掌握网页抓取技能对数据专业人士至关重要。

数据科学的网页抓取基础

KDnuggets
KDnuggets · 2025-03-19T14:00:11Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码