最近需要把 pdf 经过添加背景,提取相关内容作为文件名后把每页转为 jpg 图片,找来找去,C#语言只有 itext7 这一开源库比较好用些,不过缺乏转图片的功能,github 上有人在 itext7 基础上添加了这一功能: https://github.com/thombrink/itext7.pdfimage,可是在转换近程中发现几个 bug 导致无法成功转换,比如超过 300 页报错,无法识别字体名称以及转换成的图片缺少内容等。前 2 个 bug 试着改作者的源代码可以暂时解决,唯缺失内容这个,我不知道怎么改。当时提交了 issue 并联系了作者(详见 https://github.com/thombrink/itext7.pdfimage/issues ),可是一直未见解决办法的答复。不知道这里是否有人感兴趣能解决一下?
1 forgottencoast 2021-02-08 00:06:04 +08:00 一般缺失是因为没有识别出来,你可以去看看为什么没有识别出来内容,有可能是你的内容在 pdf 中的是以一种特别的组件存在的,所以没识别出来。如果是这种情况,你可以自己加。 |
2 cyersvet OP @forgottencoast 有个不识别的内容是边框,不知怎么加 |
3 forgottencoast 2021-02-08 13:28:25 +08:00 @cyersvet 你尝试把 pdf 做成只剩下那个边框,然后把代码下载到本地进行调试,然后在大概可能的位置断点,看看是什么原因无法识别。 |
![]() | 4 VictorJing94 2021-02-20 15:53:58 +08:00 好像 Adobe 还是其他一个什么阅读器的 api 提供转换功能的....具体记不清了 |
![]() | 5 MaiKuraki 2021-03-01 22:02:09 +08:00 nuget 上不是有很多吗,去搜搜 https://www.nuget.org/packages?q=pdf+to+jpg |
6 tangmanger 2021-04-09 11:44:07 +08:00 pdfium 你值得拥有,或者有一个 pdfviewer 二次封装的,但是有一个 bug,他在绘制图片用了 bitmap x86 有时候会抛出内存溢出,你可以试试 |