批量处理ArchiveBox所有未成功抓取的链接

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

本文介绍了如何使用ArchiveBox命令行工具批量处理未成功抓取的链接。通过`archivebox update --status unarchived`命令,可以重新抓取这些链接。文中还讨论了常见错误及其解决方案,包括跳过特定链接或提取器,以及使用`--overwrite`和`--extract`参数以提高效率。

🎯

关键要点

  • 使用命令 `archivebox update --status unarchived` 可以批量处理未成功抓取的链接。
  • 在执行命令前需切换到非管理员操作,以避免安全性报错。
  • 可以使用 `--overwrite` 和 `--extract` 参数来提高效率,强制重新运行指定的存档方法。
  • 遇到错误时,可能是由于处理字节和字符串混合导致的,可以尝试更新版本或跳过有问题的链接或提取器。
  • 可以通过禁用特定提取器来绕过问题,例如在更新时排除 readability 提取器。
  • 使用 `--resume` 参数可以指定从某个时间点开始恢复抓取,但 `--status unarchived` 选项会处理所有未成功的链接。

延伸问答

如何使用ArchiveBox批量处理未成功抓取的链接?

可以使用命令 `archivebox update --status unarchived` 来批量处理未成功抓取的链接。

在使用ArchiveBox时,如何避免安全性报错?

在执行命令前需切换到非管理员操作,使用 `su archivebox` 命令。

如何提高ArchiveBox的抓取效率?

可以使用 `--overwrite` 和 `--extract` 参数来强制重新运行指定的存档方法,从而提高效率。

遇到抓取错误时该如何处理?

可以尝试更新版本,跳过有问题的链接或提取器,或禁用特定提取器来绕过问题。

如何指定从某个时间点开始恢复抓取?

可以使用 `--resume` 参数,并提供一个时间戳作为值,指定从该时间点开始恢复。

如何在ArchiveBox中跳过特定的提取器?

可以在更新命令中排除特定提取器,例如使用 `archivebox update --status unarchived --extract wget,dom,screenshot,git,media,favicon` 来跳过 readability 提取器。

➡️

继续阅读