
如何提取一个 pdf 文件里面, 一个表格的信息?
我有一个 pdf 文件, 里面的有一个类似这样的表格, 除了这个表格还有其他很多没有写在表格里面的文字,
我现在想做的就是提取这个表格里里面的信息, 这个怎么做?
我湿了 pdfminer, 里面提取的文字顺序尤其是在提取表格内容的时候, 或者在表格里面有换行的情况的时候, 变得很乱无法统一提取信息。请问有没有什么好点的方法?

1 yidinghe 2018-04-23 16:52:26 +08:00 理论上 PDF 里面没有表格的概念,只有线、框、文字,所以你可能要计算坐标去判断一个字是否在表格中。 |
2 yo0o0o0 2018-04-23 17:02:25 +08:00 ocr 识别了解一下 |
3 CodingPuppy 2018-04-23 17:12:14 +08:00 via Android 最近也要做这么个需求,表格比你这还复杂~ pdfminer 看了下还没试~感觉 ocr 也有局限~ 还在搜索资料… |
4 woshichuanqilz OP @CodingPuppy OCR 肯定不行, pdfminer 不行, pdfminer 是无格式的, 无法探知一个字段是不是在表格里面, 我看一楼哥们的方法应该是比较有效的, 只是感觉有点难。。。 我刚看了一下 pdftable, 里面示例都用不了。。。 读文件的函数感觉都没写完。 http://7xpvdr.com1.z0.glb.clouddn.com/95885595-9dc8-4753-9ab1-e023daa27bef0423171652.png |
5 xupefei 2018-04-23 17:18:54 +08:00 用 Word 打开这个 PDF 就行了。 |
7 ynyounuo 2018-04-23 17:26:50 +08:00 如果是 doc 之类的富文本格式转换的 PDF 可以试试在 Acrobat 里写 Javascript 提取一些信息 |
8 zbl430 2018-04-23 17:34:15 +08:00 pdftotext 之后自己在做处理, 直接识别 table,难 |
9 summerwar 2018-04-23 17:40:57 +08:00 手工敲吧,比找工具快多了 这种表格基本上无解 |
10 nowheretogogo 2018-04-23 17:48:45 +08:00 目前能够直接读取 Pdf 里面表格的应该就只有 Fillable Pdf 了。 里面可以添加 fields 并通过 field.Value 这种方式获取其中的值。 |
11 timtang2010 2018-04-23 17:48:55 +08:00 https://www.freepdfconvert.com/zh-hans/pdf-excel 这个网站不错,前天做报价用了很方便转换了。只不过没有付钱有页数转换的限制。 |
12 zhaoFinger 2018-04-23 18:26:02 +08:00 ocr 吧 |
13 maxco292 2018-04-23 18:35:46 +08:00 via Android 角点检测 |
14 evagreenworking 2018-04-23 18:57:02 +08:00 via Android 白描 了解一下 |
15 laqow 2018-04-23 20:06:16 +08:00 via Android 不介意的话 acrobat 直接转 doc,或者用 reader 一纵列一纵列的选择复制 |
16 rosu 2018-04-23 20:09:14 +08:00 via Android 截图 OCR 呗 |
18 zix 2018-05-08 18:47:21 +08:00 @kxxoling 项目还没有开源啊…… @woshichuanqilz 用 pdfminer 是可以做的,把线识别出来,然后自己组装成表格。另外有一个叫做 tabula-py 的项目了解一下 附参考资料: - http://www.degeneratestate.org/posts/2016/Jun/15/extracting-tabular-data-from-pdfs/ br />- https://github.com/chezou/tabula-py |
19 tolecen 2018-07-15 22:05:41 +08:00 白描 现在表格识别有了质的提升,可以尝试一下 |