山月 ·

批量处理ArchiveBox所有未成功抓取的链接

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

本文介绍了如何使用ArchiveBox命令行工具批量处理未成功抓取的链接。通过`archivebox update --status unarchived`命令，可以重新抓取这些链接。文中还讨论了常见错误及其解决方案，包括跳过特定链接或提取器，以及使用`--overwrite`和`--extract`参数以提高效率。

🎯

关键要点

使用命令 `archivebox update --status unarchived` 可以批量处理未成功抓取的链接。
在执行命令前需切换到非管理员操作，以避免安全性报错。
可以使用 `--overwrite` 和 `--extract` 参数来提高效率，强制重新运行指定的存档方法。
遇到错误时，可能是由于处理字节和字符串混合导致的，可以尝试更新版本或跳过有问题的链接或提取器。
可以通过禁用特定提取器来绕过问题，例如在更新时排除 readability 提取器。
使用 `--resume` 参数可以指定从某个时间点开始恢复抓取，但 `--status unarchived` 选项会处理所有未成功的链接。

🔎

延伸解读

命令行操作注意事项

在使用 `archivebox update --status unarchived` 命令前，务必切换到非管理员模式，以避免安全性报错。运行 ArchiveBox 时，确保遵循安全最佳实践，避免以 root 用户身份执行命令。

处理常见错误的策略

在抓取过程中可能会遇到 TypeError 错误，通常是由于字节和字符串混合处理不当。建议更新 ArchiveBox 至最新版本，或在更新时跳过特定提取器，如 readability，以避免此类问题。

提高抓取效率的参数

使用 `--overwrite` 和 `--extract` 参数可以显著提高抓取效率。`--overwrite` 强制重新运行存档方法，而 `--extract` 则可以限制操作范围，避免不必要的重复抓取，节省时间和资源。

❓

延伸问答

如何使用ArchiveBox批量处理未成功抓取的链接？

可以使用命令 `archivebox update --status unarchived` 来批量处理未成功抓取的链接。

在使用ArchiveBox时，如何避免安全性报错？

在执行命令前需切换到非管理员操作，使用 `su archivebox` 命令。

如何提高ArchiveBox的抓取效率？

可以使用 `--overwrite` 和 `--extract` 参数来强制重新运行指定的存档方法，从而提高效率。

遇到抓取错误时该如何处理？

可以尝试更新版本，跳过有问题的链接或提取器，或禁用特定提取器来绕过问题。

如何指定从某个时间点开始恢复抓取？

可以使用 `--resume` 参数，并提供一个时间戳作为值，指定从该时间点开始恢复。

如何在ArchiveBox中跳过特定的提取器？

可以在更新命令中排除特定提取器，例如使用 `archivebox update --status unarchived --extract wget,dom,screenshot,git,media,favicon` 来跳过 readability 提取器。

🏷️