免费数据的谎言:我与Common Crawl的经历

免费数据的谎言:我与Common Crawl的经历

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Common Crawl声称其数据集“对任何人免费”,但独立研究者和学生因存储和计算成本难以承担,导致“免费”变得不真实。开放数据应真正可及,而非仅限于有资源的用户。

🎯

关键要点

  • Common Crawl声称其数据集对任何人免费,但实际使用中存在高昂的存储和计算成本。

  • 数据文件巨大,下载一个月的数据可能会超出存储配额。

  • 解析和处理这些文件需要强大的计算能力,且相关资源并不免费。

  • 在AWS Open Data上托管的Common Crawl会产生存储和带宽费用。

  • 工具复杂且分散,缺乏对新手的友好支持。

  • 实际上,只有大型公司、具备基础设施的学术机构和拥有云信用的用户才能有效使用这些数据。

  • 虽然Common Crawl在技术上是免费的,但基础设施的成本使得数据实际上变得不可及。

  • 开放数据的承诺是为了建立一个更公平的数字生态系统,但当前的状况削弱了这一承诺。

  • 需要诚实地说明实际成本,支持小规模可用的数据工具和子集,资助真正民主化访问的倡议。

  • 开放数据不应仅限于有经济能力的人,必须停止假装“免费”数据就足够。

延伸问答

Common Crawl的数据真的免费吗?

虽然Common Crawl声称数据是免费的,但实际使用中存在高昂的存储和计算成本,使得数据并不真正可及。

使用Common Crawl需要哪些资源?

使用Common Crawl需要强大的计算能力和存储空间,通常需要分布式计算和云计算资源。

谁能有效使用Common Crawl的数据?

只有大型公司、具备基础设施的学术机构和拥有云信用的用户才能有效使用Common Crawl的数据。

Common Crawl的开放数据承诺有什么问题?

Common Crawl的开放数据承诺被基础设施成本和技术门槛削弱,导致数据的实际可及性受到限制。

如何改善开放数据的可及性?

需要诚实地说明实际成本,支持小规模可用的数据工具和子集,资助真正民主化访问的倡议。

Common Crawl的数据文件有多大?

Common Crawl的数据文件非常庞大,单个WARC文件可达数GB,下载一个月的数据可能会超出存储配额。

➡️

继续阅读