第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
这篇文章介绍了如何使用python-pptx提取PPT中的文字和图片。首先需要安装python环境,然后通过git指令克隆项目。使用PyCharm打开项目,配置python解释器并运行。代码会遍历每张幻灯片,提取文本和图片信息,并将其格式化为CSV文件。最后,将测试PPT拷贝到输入目录并运行,图片会被拷贝到输出目录,同时生成一个text.csv文件。
🎯
关键要点
- 文章介绍了如何使用python-pptx提取PPT中的文字和图片。
- 首先需要安装python环境,确认是否已安装python3。
- 可以通过brew或官网下载Python进行安装。
- 使用git指令克隆powerpoint-extractor项目。
- 安装项目依赖的python-pptx组件。
- 在PyCharm中打开项目并配置python解释器。
- 核心代码遍历每张幻灯片,提取文本和图片信息。
- 提取的信息格式化为CSV文件,每行包含文件名、页码、幻灯片文本、备注和图片列表。
- 将测试PPT拷贝到输入目录并运行,生成images目录和text.csv文件。
❓
延伸问答
如何安装Python环境以运行python-pptx项目?
可以通过brew命令或官网下载Python进行安装,确保安装的是python3。
如何克隆powerpoint-extractor项目?
使用git指令:git clone git@github.com:2TallTyler/powerpoint-extractor.git。
在PyCharm中如何配置Python解释器?
在PyCharm中打开项目后,点击增加Python解释器按钮,确认python3的执行目录正确即可。
python-pptx提取PPT内容的核心代码是怎样的?
核心代码遍历每张幻灯片,搜集文本和图片信息,并将其格式化为CSV文件的一行。
运行项目后会生成哪些输出文件?
运行后会生成一个images目录和一个text.csv文件。
如何运行提取PPT内容的项目?
将测试PPT拷贝到input目录,然后点击run即可执行项目。
➡️