不需要 OCR 的,都是完全电子版的 PDF 文件。
最好是用脚本的比如 python,尝试过 pdfminer 感觉性能很弱鸡,鲁棒性也不够(也可能是我用的不对?在一个 1 核 2G 的云服务器上跑 50 页左右的,经常被强制 KILL );
实在不行也可以用软件,但是必须要能批量(手头文件很多)
谢谢大噶,被一个小需求烦死了,感觉市面上解决方案不多。
![]() | 1 kkocdko 2021-07-22 00:58:26 +08:00 via Android pdf.js 渲染然后 innerText 没试过,不知道行不行。另外能本地完成为啥要在服务器上跑 |
![]() | 2 ikas 2021-07-22 01:03:38 +08:00 Apache Tika...只是用过 |
![]() | 3 felixcode 2021-07-22 01:08:37 +08:00 via Android 用 calibre 的命令行工具转换 |
4 reallittoma 2021-07-22 08:49:14 +08:00 可以用 Ghostscript |
![]() | 5 Latin 2021-07-22 09:01:50 +08:00 |
![]() | 6 zjsxwc 2021-07-22 09:11:55 +08:00 gs -sDEVICE=txtwrite -o output.txt input.pdf |
![]() | 7 cnoder 2021-07-22 10:16:55 +08:00 unoconv 我们生产环境的转换用的这个 |
8 goxxoo 2021-07-22 10:36:33 +08:00 pdf 2000 页的路过 ,才 50 页,不存在性能问题 |