你的网站被 Google 用于 AI 训练了吗?

原文约1100字,阅读约需3分钟。发表于:

这是我看到了 Zac 的文章《你的网站内容被用于AI训练了吗?你愿意吗?》之后,而想到的。 基本上就是, Google 所使用的 AI 训练,需要很多的语料,而各大网站,或者小网站,都会成为它的目标。我对于这些 AI 工具在最近半年内的快速出现,以及快速的病毒式传播,看法也许并不相同。我认为在科技激流猛进的时候,普通用户需要耐心等待,可以尝试,不要陷入太深,等大浪淘沙后,还能为人所用的,那一定是能提高生产力,帮助人们提高效率的工具。 二月,在 Grandpa try the new technology 一文中,我向岳父大人介绍了Midjourney,以及 ChatGPT,他觉得挺有意思的。三月,我自己在本地电脑上尝试了 Stable Diffusion, 觉得蛮痛苦的。个人普通电脑还是不要尝试了,太费时间。 暂时我还是会认为各大互联网巨头都会向 OpenAI 做出挑战,做自己的 AI 训练。今天看到的 Zac 的文章,就是说 Google AI 训练集的情况。 Google 使用的是 C4 数据集,这里面有海量的网站,当然还有更多的网站并没有包括在内。The Washington Post 有做了一个互动工具,可以查看是否被包括在内,以及使用的数量。 C4开始是由非营利组织 CommonCrawl...

本文讨论了Google使用的AI训练所需的语料库,包括各大网站和小网站。作者认为在科技快速发展的时候,普通用户需要耐心等待,可以尝试,不要陷入太深,等大浪淘沙后,还能为人所用的,那一定是能提高生产力,帮助人们提高效率的工具。Google使用的是C4数据集,其中包括海量的网站,但并不试图避免许可或版权内容。作者测试了自己的网站和其他英文网站在C4数据集中的被使用情况,认为C4对于信誉度更加看重。作者认为如果将训练的结果拿出来作为一种服务,并从中获利,那么这些网站就有权要求回报,至少要有Credit或链接。

你的网站被 Google 用于 AI 训练了吗?
相关推荐 去reddit讨论