内容提要
本教程指导新手如何抓取 X/Twitter 长文并保存为 Markdown 文件。步骤包括安装 Python、创建工作目录、安装抓取工具、导出登录 Cookie、使用命令行抓取长文以及将 HTML 转换为 Markdown。建议先测试一篇文章,确保流程顺利后再进行批量操作。
关键要点
-
本教程适合想保存 X/Twitter 长文的新手,特别是对命令行不熟悉的用户。
-
完整流程包括安装 Python、安装抓取工具、导出登录 Cookie、用命令行抓取长文和将 HTML 转换为 Markdown。
-
需要准备 Windows 电脑、Chrome 浏览器、X/Twitter 账号和 Codex 环境。
-
安装 Python 时要勾选 'Add python.exe to PATH',以确保在 PowerShell 中可以找到 Python。
-
创建专门的工作目录以存放推特长文,包括 cookies、downloads、markdown 和 scripts 文件夹。
-
使用 gallery-dl 作为抓取工具,并通过 PowerShell 安装和检查其版本。
-
通过 Chrome 插件导出 X/Twitter 的登录 Cookie,并确保 Cookie 文件的安全性。
-
找到推特长文链接并使用命令行抓取,确保命令格式正确。
-
抓取后将 HTML 文件转换为 Markdown 格式,使用 Python 脚本进行转换。
-
Codex 可以帮助检查环境、执行抓取和清洗 Markdown 文件。
-
可选使用 Twitter Web Exporter 导出更多数据,但主要推荐使用本文的方法抓取长文。
-
常见问题包括找不到 Python、抓取错误和 Markdown 格式混乱,解决方法在文中有详细说明。
-
建议每次抓取前确认 Cookie 有效性,抓取后保留原始推文链接和 HTML 文件以备后用。
延伸解读
适合新手的抓取工具
本教程特别适合对命令行不熟悉的新手。通过使用 gallery-dl 和 Codex,用户可以在较少的技术背景下完成 X/Twitter 长文的抓取和转换。建议新手先进行一次简单的测试,确保流程顺畅后再进行批量操作,以避免不必要的错误和数据丢失。
Cookie 的重要性
导出和使用有效的 Cookie 是抓取 X/Twitter 长文的关键步骤。Cookie 作为临时登录凭证,确保用户能够访问需要登录的内容。用户应定期检查 Cookie 的有效性,并在抓取失败时及时更新,以保证抓取过程的顺利进行。
Markdown 格式的优势
将抓取的内容转换为 Markdown 格式后,用户可以更方便地在 Obsidian、Notion 等笔记工具中管理和编辑。这种格式不仅便于存储,还能保持内容的结构化,适合长期保存和后续的内容整理。
延伸问答
如何安装 Python 以便抓取 X/Twitter 长文?
访问 Python 官网下载安装包,安装时勾选 'Add python.exe to PATH',确保在 PowerShell 中可以找到 Python。
抓取 X/Twitter 长文需要哪些工具和环境?
需要 Windows 电脑、Chrome 浏览器、X/Twitter 账号、Codex 环境和 Python 3.9 或更高版本,以及 Chrome 插件 Get cookies.txt LOCALLY。
如何导出 X/Twitter 的登录 Cookie?
在 Chrome 中打开 X/Twitter,使用 Get cookies.txt LOCALLY 插件导出当前网站的 Cookie,并保存为 twitter_cookies.txt。
如何使用命令行抓取推特长文?
在 PowerShell 中进入工作目录,使用命令 'python -m gallery_dl --cookies "./cookies/twitter_cookies.txt" --directory "./downloads" "推特长文链接"' 来抓取长文。
抓取后如何将 HTML 文件转换为 Markdown 格式?
编写 Python 脚本,使用 BeautifulSoup 和 markdownify 库将抓取的 HTML 文件转换为 Markdown 格式,并保存到指定目录。
如果抓取过程中出现错误该怎么办?
检查 Cookie 是否有效,确认命令格式正确,必要时重新导出 Cookie,并确保登录状态正常。