一日一技:从PDF完美提取表格
原文中文,约700字,阅读约需2分钟。发表于: 。在之前很长一段时间,从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库,提取出来的表格都会变成纯文本,难以二次利用。 但现在好消息来了,专业处理PDF的第三方库PyMuPDF升级到了1.23.0,已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。
PyMuPDF库升级到1.23.0后,可以提取PDF中的表格并转换为Pandas的DataFrame进行分析。安装pandas和openpyxl库后,可以读取PDF中的表格并导出为Excel文件。生成的Excel文件中的表格信息完整,包括换行符。可以直接在代码中对DataFrame进行分析。