小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI抵制浪潮兴起:数据投毒与虚假信息如何反击模型训练

人们通过投喂垃圾数据和散布虚假信息来抵制AI数据抓取,旨在提高数据采集成本,迫使科技公司改变做法。Reddit社区“毒泉”鼓励用户向爬虫提供无用数据,以影响AI模型训练。这被视为和平反抗,旨在保护网络内容创作者的权益,促使AI公司重新思考数据获取方式。

AI抵制浪潮兴起:数据投毒与虚假信息如何反击模型训练

极道
极道 · 2026-04-21T00:47:00Z
传统抓取与AI抓取:开发者和数据团队的实用指南

网络数据生成量巨大,开发者面临可靠抓取的问题。传统抓取依赖选择器提取数据,但结构变化会导致失败。AI抓取通过理解内容而非结构提取数据,适应性更强。两者各有优劣,结合使用更为有效。

传统抓取与AI抓取:开发者和数据团队的实用指南

freeCodeCamp.org
freeCodeCamp.org · 2026-04-16T21:37:47Z
本地Qwen+云模型:OpenClaw真实体验

OpenClaw近期受到关注,吸引用户尝试,但功能被认为有限。作者分享了两个实用场景:自动化博客发布和定时数据抓取工具。国产模型在复杂任务上与Claude存在差距,但在简单任务中表现稳定。本地部署适合轻量任务,满足隐私需求。

本地Qwen+云模型:OpenClaw真实体验

远飞闲记
远飞闲记 · 2026-03-09T00:00:00Z
本地Qwen+云模型:OpenClaw真实体验

OpenClaw近期受到关注,但用户普遍认为其功能有限,主要用于日常对话。尽管有人声称通过安装订单获利,但多为宣传。作者分享了两个实用场景:自动化博客发布和定时数据抓取工具。国产模型与Claude在复杂任务上仍有差距,但在简单任务中表现良好。本地部署适合轻量任务,满足隐私需求。

本地Qwen+云模型:OpenClaw真实体验

远飞闲记
远飞闲记 · 2026-03-09T00:00:00Z
2026年大型数据抓取的最佳代理服务提供商

文章比较了四大代理服务提供商:Bright Data、Oxylabs、Infatica和NetNut,指出Bright Data在全球覆盖、合规性和反机器人技术方面的优势,适合高需求的企业级数据抓取。

2026年大型数据抓取的最佳代理服务提供商

KDnuggets
KDnuggets · 2025-12-04T18:00:19Z
网络论坛REDDIT宣布起诉AI公司Perplexity等未经授权抓取数据训练人工智能模型

Reddit 起诉 Perplexity 等公司未经授权抓取数据,指控其非法使用论坛内容。Perplexity 声称未使用 Reddit 数据,但其机器人仍引用 Reddit 内容。Reddit 强调数据价值,要求停止抓取。

网络论坛REDDIT宣布起诉AI公司Perplexity等未经授权抓取数据训练人工智能模型

蓝点网
蓝点网 · 2025-10-23T02:23:21Z
Reddit起诉Perplexity,指控其非法获取内容以供人工智能使用

Reddit起诉Perplexity及三家数据抓取服务商,指控其非法获取Reddit数据,称其行为如同“银行抢劫犯”。Perplexity则表示将为用户的知识获取权利而战。

Reddit起诉Perplexity,指控其非法获取内容以供人工智能使用

The Verge
The Verge · 2025-10-22T17:38:24Z
如何使用Firecrawl将网站转化为适合大型语言模型的数据

Firecrawl是一个开源API工具,能够快速将网站内容转化为结构化数据,便于大型语言模型使用。它支持复杂网站的数据抓取,自动处理代理和反机器人系统。用户只需提供网址,即可获取干净的Markdown、HTML或JSON格式数据,简化数据收集过程。Firecrawl适合开发者和数据科学家进行模型训练、情感分析和网站内容监控。

如何使用Firecrawl将网站转化为适合大型语言模型的数据

freeCodeCamp.org
freeCodeCamp.org · 2025-10-22T16:02:51Z
通过Cloudflare的新内容信号政策赋予用户选择权

Cloudflare推出内容信号政策,允许网站运营者在robots.txt中表达对内容使用的偏好,以保护内容创作者的权益,解决数据抓取问题,增强创作者对数据使用的控制。

通过Cloudflare的新内容信号政策赋予用户选择权

The Cloudflare Blog
The Cloudflare Blog · 2025-09-24T13:10:00Z

Puppeteer - Sharp是基于Google Puppeteer的.NET封装,旨在高效控制Chrome浏览器。其主要功能包括页面操作、截图、PDF生成、性能优化和JavaScript交互,适合自动化测试和网页数据抓取。开发者可通过简单的安装和初始化快速搭建自动化流程,提高开发效率。

Puppeteer - Sharp:赋能开发者的浏览器自动化利器

dotNET跨平台
dotNET跨平台 · 2025-08-18T00:02:39Z

Reddit发现AI公司利用Wayback Machine绕过数据限制,非法抓取历史数据进行模型训练,侵犯用户隐私。尽管Reddit已限制API和数据抓取,AI公司仍通过缓存等方式获取数据,导致与Wayback Machine的合作关系面临挑战,数据所有权与AI训练需求的冲突加剧。

偷数据的AI公司被抓到了

量子位
量子位 · 2025-08-13T07:58:09Z
安装在近100万台设备上的浏览器扩展程序利用用户IP帮助AI公司抓取内容

研究发现245款浏览器扩展程序含恶意JavaScript库,利用用户设备抓取数据。谷歌已开始删除这些扩展,用户可能会收到警告。该库通过用户IP隐秘抓取,存在安全风险,可能导致跨站脚本攻击。

安装在近100万台设备上的浏览器扩展程序利用用户IP帮助AI公司抓取内容

蓝点网
蓝点网 · 2025-07-11T03:17:00Z
社交网站X/Twitter修改开发者协议 即便付费购买API后也禁止拿数据训练AI

社交网站X/Twitter更新开发者协议,禁止使用购买的API抓取数据进行AI模型训练,违反者可能面临账号封停或起诉。新协议加强了数据访问限制,影响开发者和用户的正常使用。

社交网站X/Twitter修改开发者协议 即便付费购买API后也禁止拿数据训练AI

蓝点网
蓝点网 · 2025-06-06T00:22:22Z
知名网络论坛Reddit起诉Anthropic指控其未获得许可抓取内容训练AI

Reddit 起诉人工智能公司 Anthropic,指控其未经授权抓取数据以训练 AI 模型,违反用户协议。Reddit 指出 Anthropic 忽视 robots.txt 协议,要求赔偿并禁止其使用内容。Anthropic 尚未作出明确回应。

知名网络论坛Reddit起诉Anthropic指控其未获得许可抓取内容训练AI

蓝点网
蓝点网 · 2025-06-05T06:58:16Z
法院要求ChatGPT保留所有用户日志包括已删除的聊天记录和API调用的聊天内容

法院要求 OpenAI 保留所有用户日志,包括已删除的聊天记录,因新闻机构指控其未经授权抓取数据并销毁证据。OpenAI 抗辩称该命令过早,可能威胁用户隐私。

法院要求ChatGPT保留所有用户日志包括已删除的聊天记录和API调用的聊天内容

蓝点网
蓝点网 · 2025-06-05T00:46:30Z
法院要求ChatGPT保留所有用户日志包括已删除的聊天记录和API调用的聊天内容

法院要求OpenAI保留所有用户日志,包括已删除的聊天记录,因新闻机构指控其未经授权抓取数据并销毁证据。OpenAI对此命令提出抗辩,称可能威胁用户隐私。

法院要求ChatGPT保留所有用户日志包括已删除的聊天记录和API调用的聊天内容

蓝点网
蓝点网 · 2025-06-05T00:46:30Z
使用Bright Data代理的实时新闻情绪追踪器

该项目是一个实时金融新闻分析器,能够从150多个全球新闻源抓取数据,8-12分钟内检测市场情绪,并提供机构级仪表板,支持8种语言。使用Bright Data的代理网络,确保抓取速度和可靠性。

使用Bright Data代理的实时新闻情绪追踪器

DEV Community
DEV Community · 2025-05-24T22:49:55Z
Insta分析器:一个由PHP、Neuron AI和Bright Data驱动的AI Instagram分析工具 📸

这篇文章介绍了一款AI工具,能够解码Instagram个人资料,帮助用户获取信息。作者是一位巴西开发者,正在寻找工作,利用Bright Data的技术构建了该项目。文章中提供了项目演示和代码示例,展示了如何使用Bright Data的API进行数据抓取和分析。

Insta分析器:一个由PHP、Neuron AI和Bright Data驱动的AI Instagram分析工具 📸

DEV Community
DEV Community · 2025-05-19T21:32:20Z
重构028 - 用暗钥替换连续ID

通过将模型中的顺序ID替换为UUID,可以提高安全性,降低IDOR漏洞和数据抓取风险。这种重构方法确保内部ID的私密性,优化API设计,减少自动抓取的可能性。

重构028 - 用暗钥替换连续ID

DEV Community
DEV Community · 2025-05-17T21:44:34Z
如何使用Python抓取亚马逊影响者链接?

本文探讨了如何从亚马逊影响者账户抓取动态内容,特别是SiteStripe横幅的href属性。由于JavaScript渲染和会话管理,抓取可能会出现数据缺失。解决方案包括保持会话认证、使用BeautifulSoup解析HTML,以及在必要时使用Selenium处理动态内容,从而有效抓取所需数据。

如何使用Python抓取亚马逊影响者链接?

DEV Community
DEV Community · 2025-05-15T00:00:22Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码