请教大神们，怎么在本地把 PDF 批量处理转成 TXT 格式 - V2EX

请教大神们，怎么在本地把 PDF 批量处理转成 TXT 格式 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2031 天前的主题，其中的信息可能已经有所发展或是发生改变。

请教大神们，怎么在本地把 PDF 批量处理转成 TXT 格式？需要处理几千份 PDF 文件，由于数据保密要求，没法在线处理。谢谢！

5 条回复 2020-06-03 22:51:35 +08:00

1

summerwar

2020-06-03 21:22:25 +08:00

ocr 识别然后 txt 就好了

2

JCZ2MkKb5S8ZX9pq

2020-06-03 21:25:37 +08:00

感觉是一个大坑，pdf 很可能乱序，ocr 如果是拍摄版文档很可能不准，估计人工校对少不了。

3

optional

2020-06-03 21:52:55 +08:00

pdfjs

4

systemcall

2020-06-03 22:03:32 +08:00

很多坑。甩锅的好办法是叫领导改用人力，多雇些人打字。反正最后还是得人来校对。你就只用做一个基于大数据来纠错的分布式的字处理系统

5

Kirscheis

2020-06-03 22:51:35 +08:00

暂时没发现有什么好办法，目前是用 qpdf 和 python 做解密、拆分和提取，图片过一遍 OCR 。
不过我的数据是用来喂给搜索引擎的，不是给人看的，凡是有表格和特殊格式的部分一般都会顺序出错，估计和你的要求不怎么一样。

关于帮助文档自助推广系统博客 API FAQ Solana 3995 人在线 最高记录 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 19ms UTC 05:28 PVG 13:28 LAX 21:28 JFK 00:28
Do have faith in what you're doing.

ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86