X/Twitter 长文复制不了?用 Codex 自动抓正文、图片和互动数据保存成 Markdown

X/Twitter 长文复制不了?用 Codex 自动抓正文、图片和互动数据保存成 Markdown

💡 原文中文,约9700字,阅读约需23分钟。
📝

内容提要

本教程指导新手如何抓取 X/Twitter 长文并保存为 Markdown 文件。步骤包括安装 Python、创建工作目录、安装抓取工具、导出登录 Cookie、使用命令行抓取长文以及将 HTML 转换为 Markdown。建议先测试一篇文章,确保流程顺利后再进行批量操作。

🎯

关键要点

  • 本教程适合想保存 X/Twitter 长文的新手,特别是对命令行不熟悉的用户。

  • 完整流程包括安装 Python、安装抓取工具、导出登录 Cookie、用命令行抓取长文和将 HTML 转换为 Markdown。

  • 需要准备 Windows 电脑、Chrome 浏览器、X/Twitter 账号和 Codex 环境。

  • 安装 Python 时要勾选 'Add python.exe to PATH',以确保在 PowerShell 中可以找到 Python。

  • 创建专门的工作目录以存放推特长文,包括 cookies、downloads、markdown 和 scripts 文件夹。

  • 使用 gallery-dl 作为抓取工具,并通过 PowerShell 安装和检查其版本。

  • 通过 Chrome 插件导出 X/Twitter 的登录 Cookie,并确保 Cookie 文件的安全性。

  • 找到推特长文链接并使用命令行抓取,确保命令格式正确。

  • 抓取后将 HTML 文件转换为 Markdown 格式,使用 Python 脚本进行转换。

  • Codex 可以帮助检查环境、执行抓取和清洗 Markdown 文件。

  • 可选使用 Twitter Web Exporter 导出更多数据,但主要推荐使用本文的方法抓取长文。

  • 常见问题包括找不到 Python、抓取错误和 Markdown 格式混乱,解决方法在文中有详细说明。

  • 建议每次抓取前确认 Cookie 有效性,抓取后保留原始推文链接和 HTML 文件以备后用。

🔎

延伸解读

适合新手的抓取工具

本教程特别适合对命令行不熟悉的新手。通过使用 gallery-dl 和 Codex,用户可以在较少的技术背景下完成 X/Twitter 长文的抓取和转换。建议新手先进行一次简单的测试,确保流程顺畅后再进行批量操作,以避免不必要的错误和数据丢失。

Cookie 的重要性

导出和使用有效的 Cookie 是抓取 X/Twitter 长文的关键步骤。Cookie 作为临时登录凭证,确保用户能够访问需要登录的内容。用户应定期检查 Cookie 的有效性,并在抓取失败时及时更新,以保证抓取过程的顺利进行。

Markdown 格式的优势

将抓取的内容转换为 Markdown 格式后,用户可以更方便地在 Obsidian、Notion 等笔记工具中管理和编辑。这种格式不仅便于存储,还能保持内容的结构化,适合长期保存和后续的内容整理。

延伸问答

如何安装 Python 以便抓取 X/Twitter 长文?

访问 Python 官网下载安装包,安装时勾选 'Add python.exe to PATH',确保在 PowerShell 中可以找到 Python。

抓取 X/Twitter 长文需要哪些工具和环境?

需要 Windows 电脑、Chrome 浏览器、X/Twitter 账号、Codex 环境和 Python 3.9 或更高版本,以及 Chrome 插件 Get cookies.txt LOCALLY。

如何导出 X/Twitter 的登录 Cookie?

在 Chrome 中打开 X/Twitter,使用 Get cookies.txt LOCALLY 插件导出当前网站的 Cookie,并保存为 twitter_cookies.txt。

如何使用命令行抓取推特长文?

在 PowerShell 中进入工作目录,使用命令 'python -m gallery_dl --cookies "./cookies/twitter_cookies.txt" --directory "./downloads" "推特长文链接"' 来抓取长文。

抓取后如何将 HTML 文件转换为 Markdown 格式?

编写 Python 脚本,使用 BeautifulSoup 和 markdownify 库将抓取的 HTML 文件转换为 Markdown 格式,并保存到指定目录。

如果抓取过程中出现错误该怎么办?

检查 Cookie 是否有效,确认命令格式正确,必要时重新导出 Cookie,并确保登录状态正常。

🏷️

标签

➡️

继续阅读