网站首页 > 技术文章 正文
PDF是一个比较坑的东西,有很多处理PDF的库,但是没有完美的。
PDF文本的识别读取
读取PDF文本的库有pdfminer3k,pdfplumber,pypdf2,pypdf4等,我们学习pdfminer3k这个库。PDFminer3k是pdfminer对应python3的版本,主要用于读取PDF的文本,它对表格的读取支持的不太友好,表格格式都会消失。
使用命令安装pdfminer3k库,如下图所示:
导入PDFminerk相关类,代码示例如下图所示:
运行代码结果如下图所示:
我们可以看到表格内容打印出来了格式都没有了。
读取PDF表格
能够识别PDF表格的库也有很多,如camelot、tabula、pdfplumber等,综合来看pdfplumber库的性能较佳,可以提取出完整且相对规范的表格。因此我们学习pdfplumber库。pdfplumber库是按页处理PDF的,可以获取页面所有文字,还提供了两个单独的方法用于提取表格,分别是extract_tables()和extract_table()。
使用命令安装pdfplumber库,如下图所示;
extract_tables()
返回页面中所有的表格,以嵌套列表形式存在,所有表格被放在一个大列表中,代码如下图所示:
运行结果如下图所示
extract_table()
返回一个表格列表,如果页面只有一个表格就返回这一个表格,如果有多个表格返回列数多的表格,列数相同返回第一个表格,如下图所示:
运行结果如下图所示:
想了解更多精彩内容,快来关注程序猿小董- 上一篇: python进阶:PDF电子发票读取与合并
- 下一篇: s3c2440 存储系统和I/O空间认识
猜你喜欢
- 2024-09-22 python进阶:PDF电子发票读取与合并
- 2024-09-22 使用Python玩转PDF各种骚操作,这些技巧你要知道
- 2024-09-22 合并PDF文件的最短代码
- 2024-09-22 Python玩转PDF的各种骚操作
- 2024-09-22 Python基础学习教程:Python玩转PDF各种骚操作大全
- 2024-09-22 10行python代码系列——合并多个PDF
- 2024-09-22 如何使用Python玩转PDF各种骚操作?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)