批量处理ArchiveBox所有未成功抓取的链接
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
本文介绍了如何使用ArchiveBox命令行工具批量处理未成功抓取的链接。通过`archivebox update --status unarchived`命令,可以重新抓取这些链接。文中还讨论了常见错误及其解决方案,包括跳过特定链接或提取器,以及使用`--overwrite`和`--extract`参数以提高效率。
🎯
关键要点
- 使用命令 `archivebox update --status unarchived` 可以批量处理未成功抓取的链接。
- 在执行命令前需切换到非管理员操作,以避免安全性报错。
- 可以使用 `--overwrite` 和 `--extract` 参数来提高效率,强制重新运行指定的存档方法。
- 遇到错误时,可能是由于处理字节和字符串混合导致的,可以尝试更新版本或跳过有问题的链接或提取器。
- 可以通过禁用特定提取器来绕过问题,例如在更新时排除 readability 提取器。
- 使用 `--resume` 参数可以指定从某个时间点开始恢复抓取,但 `--status unarchived` 选项会处理所有未成功的链接。
❓
延伸问答
如何使用ArchiveBox批量处理未成功抓取的链接?
可以使用命令 `archivebox update --status unarchived` 来批量处理未成功抓取的链接。
在使用ArchiveBox时,如何避免安全性报错?
在执行命令前需切换到非管理员操作,使用 `su archivebox` 命令。
如何提高ArchiveBox的抓取效率?
可以使用 `--overwrite` 和 `--extract` 参数来强制重新运行指定的存档方法,从而提高效率。
遇到抓取错误时该如何处理?
可以尝试更新版本,跳过有问题的链接或提取器,或禁用特定提取器来绕过问题。
如何指定从某个时间点开始恢复抓取?
可以使用 `--resume` 参数,并提供一个时间戳作为值,指定从该时间点开始恢复。
如何在ArchiveBox中跳过特定的提取器?
可以在更新命令中排除特定提取器,例如使用 `archivebox update --status unarchived --extract wget,dom,screenshot,git,media,favicon` 来跳过 readability 提取器。
🏷️
标签
➡️