pdf 文件是文本可编辑类型。网上搜索了下,没有找到很好的解决办法,问问大佬,有办法吗?或者转 html,谢谢了。
![]() | 1 MicroBotter 2021-03-06 10:28:41 +08:00 pdf 的文本只有 pdf/a 才是可以编辑的。你是不可能对任意 pdf 转化成合理的文本。 |
![]() | 2 MicroBotter 2021-03-06 10:29:34 +08:00 转换任意 pdf 成文本的难度和写一个识别物体的人工智能难度差不多。 |
![]() | 3 Latin 2021-03-06 10:32:05 +08:00 可以转换,但是样式基本就是纯文本 |
![]() | 4 Latin 2021-03-06 10:32:27 +08:00 PDF to docx ==> html |
![]() | 5 Merlini 2021-03-06 11:56:49 +08:00 via Android pdf 转文本的话,推荐 PyMuPdf 。 改成 markdown 的话可能你得自己识别里面的字体大小了。 |
![]() | 6 jdhao 2021-03-06 12:05:36 +08:00 via Android 看看 pandoc 行不行 |
![]() | 7 SenLief 2021-03-06 12:14:54 +08:00 如果是纯文本有可能转换,要不然效率太低。 |
![]() | 8 encro 2021-03-06 13:58:51 +08:00 可以的。 首先转 html, 然后语义化, 转换为 h1,h2,...p 这样的, 然后换 markdown,很多格式肯定丢掉。 另外:markdown 一些解释器支持 html 好像。 |
![]() | 9 inframe 2021-03-06 16:17:17 +08:00 那不如先用 office 转换到 word,然后再转换 |
![]() | 10 omph 2021-03-06 16:35:58 +08:00 linux 倒是有 Poppler-utils,可以用其中的命令 pdftohtml,转成 html,字体大小倒是可以保留 |