第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

这篇文章介绍了如何使用python-pptx提取PPT中的文字和图片。首先需要安装python环境,然后通过git指令克隆项目。使用PyCharm打开项目,配置python解释器并运行。代码会遍历每张幻灯片,提取文本和图片信息,并将其格式化为CSV文件。最后,将测试PPT拷贝到输入目录并运行,图片会被拷贝到输出目录,同时生成一个text.csv文件。

🎯

关键要点

  • 文章介绍了如何使用python-pptx提取PPT中的文字和图片。
  • 首先需要安装python环境,确认是否已安装python3。
  • 可以通过brew或官网下载Python进行安装。
  • 使用git指令克隆powerpoint-extractor项目。
  • 安装项目依赖的python-pptx组件。
  • 在PyCharm中打开项目并配置python解释器。
  • 核心代码遍历每张幻灯片,提取文本和图片信息。
  • 提取的信息格式化为CSV文件,每行包含文件名、页码、幻灯片文本、备注和图片列表。
  • 将测试PPT拷贝到输入目录并运行,生成images目录和text.csv文件。

延伸问答

如何安装Python环境以运行python-pptx项目?

可以通过brew命令或官网下载Python进行安装,确保安装的是python3。

如何克隆powerpoint-extractor项目?

使用git指令:git clone git@github.com:2TallTyler/powerpoint-extractor.git。

在PyCharm中如何配置Python解释器?

在PyCharm中打开项目后,点击增加Python解释器按钮,确认python3的执行目录正确即可。

python-pptx提取PPT内容的核心代码是怎样的?

核心代码遍历每张幻灯片,搜集文本和图片信息,并将其格式化为CSV文件的一行。

运行项目后会生成哪些输出文件?

运行后会生成一个images目录和一个text.csv文件。

如何运行提取PPT内容的项目?

将测试PPT拷贝到input目录,然后点击run即可执行项目。

🏷️

标签

➡️

继续阅读