小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
第732期:网页抓取、Altair图表、OpenAI的API及更多(2026年4月28日)

文章比较了browser-use和Playwright在网页抓取中的应用。通过构建Hacker News合成器展示了browser-use的优势,但在复杂的Newegg抓取任务中表现不佳。分析了选择这两种工具的最佳时机。

第732期:网页抓取、Altair图表、OpenAI的API及更多(2026年4月28日)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-04-28T19:30:00Z
被低估的 .NET 开源项目:AngleSharp,优雅的 HTML 解析神器

AngleSharp 是一个基于 .NET 的开源库,用于解析 HTML、CSS 和 DOM,遵循 Web 标准,提供与现代浏览器一致的解析行为。它支持强大的 CSS 选择器,易于使用,适合网页数据抓取和 DOM 操作。通过 NuGet 引入后,开发者可以方便地解析 HTML 和操作文档对象,适合需要精细化网页处理的项目。

被低估的 .NET 开源项目:AngleSharp,优雅的 HTML 解析神器

dotNET跨平台
dotNET跨平台 · 2026-04-27T00:02:44Z
洪绘存图发布:保存浏览器图片为指定格式、提取网页所有图片、屏幕截图插件

作者开发了《洪绘存图》插件,满足图片保存、网页抓取和截图需求,支持多种常见格式,具备轻量级抓取功能和网页截图。

洪绘存图发布:保存浏览器图片为指定格式、提取网页所有图片、屏幕截图插件

张洪Heo
张洪Heo · 2026-03-29T06:41:52Z
基于Amazon Bedrock 上实现 Dynamic Filtering Web Search 与 Web Fetch

本文介绍了如何在Amazon Bedrock上实现动态过滤的Web搜索和网页抓取功能。通过自建Proxy服务,用户可以利用Claude模型进行实时搜索和抓取,支持动态过滤以提高查询准确性。该方案兼容Anthropic官方API,允许无缝迁移,且无需修改客户端代码。文章还探讨了实现原理、架构设计及其优势,包括降低Token消耗和提升推理效率。

基于Amazon Bedrock 上实现 Dynamic Filtering Web Search 与 Web Fetch

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-23T05:20:44Z
数据科学项目的十大免费API提供商

本文介绍了10个免费的API,帮助数据科学项目获取高质量实时数据,涵盖基础数据存储、网页抓取、地理天气、金融市场和社交社区数据,便于快速选择和使用。

数据科学项目的十大免费API提供商

KDnuggets
KDnuggets · 2025-09-19T12:00:16Z
通过Bright Data和LlamaIndex为AI代理提供网络访问

大型语言模型因依赖过时数据,无法及时捕捉当前事件。Bright Data提供AI-ready的网络数据基础设施,支持网页抓取和商业智能。通过与LlamaIndex集成,AI代理可实时访问相关数据,执行数据提取和网页搜索等任务。

通过Bright Data和LlamaIndex为AI代理提供网络访问

Blog on LlamaIndex
Blog on LlamaIndex · 2025-08-14T00:00:00Z
与Oxylabs和LlamaIndex构建更智能的AI代理

Oxylabs与LlamaIndex结合,提供高效网页抓取解决方案,降低LLM网络搜索成本。用户可通过安装Python包,轻松抓取Google、Amazon和YouTube数据,构建实时搜索代理,获取最新信息,为开发网络应用奠定基础。

与Oxylabs和LlamaIndex构建更智能的AI代理

Blog on LlamaIndex
Blog on LlamaIndex · 2025-07-28T00:00:00Z
GoLogin:开发者的多账户浏览器管理与网页抓取指南

GoLogin是一款反检测浏览器,帮助开发者管理多个浏览器配置文件,适用于网页抓取和多账户管理。它通过修改浏览器指纹,确保每个配置文件看起来像不同用户,适合社交媒体自动化、隐私保护和QA测试。GoLogin支持API集成,兼容Selenium和Puppeteer,并提供灵活的定价和免费试用。

GoLogin:开发者的多账户浏览器管理与网页抓取指南

DEV Community
DEV Community · 2025-05-30T09:08:11Z
什么是数据抓取?详细指南

数据抓取是自动从网站提取数据的过程,旨在将非结构化数据转化为可分析格式。主要步骤包括发送请求、获取网页、解析HTML、提取数据和存储。数据抓取可分为网页抓取、API抓取、屏幕抓取和社交媒体抓取,广泛应用于市场研究、情感分析和商业智能等领域。抓取时需遵循法律和道德规范,避免违反服务条款和数据隐私。

什么是数据抓取?详细指南

DEV Community
DEV Community · 2025-05-05T09:45:17Z
轻松获取AP新闻数据的方法

AP新闻是美联社的新闻平台,ScrapeStorm是一款支持Windows、Mac和Linux的人工智能网页抓取工具,用户可创建抓取任务、配置规则,并将数据导出为Excel和CSV等多种格式。

轻松获取AP新闻数据的方法

DEV Community
DEV Community · 2025-04-30T02:37:18Z
AI应用中的文档加载、解析与清理

本文介绍了如何为智能应用加载、解析和清理文档,强调数据清洁的重要性,遵循“垃圾进,垃圾出”的原则。涵盖数据收集、文本提取、元数据提取和网页抓取等技术,旨在将原始文档转化为结构化数据,提高AI应用的准确性和可靠性。

AI应用中的文档加载、解析与清理

DEV Community
DEV Community · 2025-04-24T18:50:55Z
Python中使用Parsel的终极网页抓取指南

本博客介绍了如何使用Python的Parsel库进行网页抓取,支持XPath和CSS选择器,便于提取HTML数据。内容包括环境设置、数据提取、处理复杂HTML结构以及数据清洗与保存,适合初学者和轻量工具用户。

Python中使用Parsel的终极网页抓取指南

DEV Community
DEV Community · 2025-04-11T13:16:30Z
网页抓取:数据科学中的关键工具

网页抓取是一种从网站提取大量数据的技术,广泛应用于数据科学领域。

网页抓取:数据科学中的关键工具

DEV Community
DEV Community · 2025-04-04T17:33:36Z
如何在AWS Lambda上运行Puppeteer

在AWS Lambda上运行Puppeteer可以实现无服务器网页抓取,但需应对执行时间和内存限制。通过优化设置,可以构建可靠的解决方案。本文提供了Puppeteer在AWS Lambda上的安装指南和示例代码,并介绍了CaptureKit作为管理解决方案的替代选项。

如何在AWS Lambda上运行Puppeteer

DEV Community
DEV Community · 2025-03-28T13:13:35Z
我如何在1小时内用Python学习网页抓取

本文介绍了如何在1小时内学习网页抓取,适用于价格比较和数据收集等场景。作者通过FreeCodeCamp的Python课程,使用BeautifulSoup和Requests库实践抓取YouTube频道信息,发现网页抓取简单易学,特别适合初学者。

我如何在1小时内用Python学习网页抓取

DEV Community
DEV Community · 2025-03-24T22:12:38Z
TikTok API综合指南

TikTok已成为热门社交媒体平台,提供多种API供开发者使用,如登录、分享和内容发布API。这些API帮助企业和研究者获取数据,但访问受到限制。网页抓取是另一种获取数据的方法,但存在法律和技术风险。理解这些工具及其限制对数据整合和分析至关重要。

TikTok API综合指南

DEV Community
DEV Community · 2025-03-20T22:54:18Z

数据是数据科学和人工智能的核心。网页抓取是从网站提取数据的过程,常用Python库包括BeautifulSoup、Selenium和Scrapy。本文介绍了如何使用BeautifulSoup库抓取http://quotes.toscrape.com网站的数据并保存为CSV文件。掌握网页抓取技能对数据专业人士至关重要。

数据科学的网页抓取基础

KDnuggets
KDnuggets · 2025-03-19T14:00:11Z
使用RSelenium(Chrome驱动)和Rvest进行网页抓取

本文介绍了如何使用R语言的RVest和RSelenium库进行网页抓取,包括检查robots.txt文件、遵循网站条款和限制请求频率。通过模拟用户行为,自动化浏览器操作,提取书籍信息并保存为CSV文件,实现高效的数据抓取。

使用RSelenium(Chrome驱动)和Rvest进行网页抓取

freeCodeCamp.org
freeCodeCamp.org · 2025-03-17T13:44:10Z
🚀 Pydoll:Python中的异步网页自动化 - 无需WebDriver的网页抓取!

Pydoll是一个Python库,旨在无需WebDrivers自动化Chromium浏览器,支持异步编程、模拟人类行为和内置验证码绕过,简化网页抓取和任务自动化。

🚀 Pydoll:Python中的异步网页自动化 - 无需WebDriver的网页抓取!

DEV Community
DEV Community · 2025-03-15T13:17:56Z
使用Python进行开源情报:像专业人士一样追踪互联网

开源情报(OSINT)是一种有效的信息收集方法,Python因其自动化和数据处理能力而成为理想工具。利用Requests、BeautifulSoup和Selenium等库,可以高效提取数据并保持匿名,自动化脚本使OSINT调查更快速和高效。

使用Python进行开源情报:像专业人士一样追踪互联网

DEV Community
DEV Community · 2025-03-15T13:03:07Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码