有会图像处理的吗,小老弟有个问题想请教一下 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cbwood
V2EX    问与答

有会图像处理的吗,小老弟有个问题想请教一下

  •  
  •   cbwood 2020-10-31 17:32:18 +08:00 via Android 2109 次点击
    这是一个创建于 1806 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个 pdf 文件,文件内容是一些规则排版的文字,但不是汉语,用目前的一些 ocr 也不能很好的识别出这些文字。

    现在我想将 pdf 每一页转成图片,然后将图片中的每一个文字截取出来变成图片单独存储,现在的问题是不知道怎么样将每一个文字截取出来变成单独的图片,请问有什么合适不合适方法或者工具可以推荐一下吗?

    12 条回复    2020-10-31 23:45:06 +08:00
    jdhao
        1
    jdhao  
       2020-10-31 17:36:35 +08:00 via Android
    每一个字单独抠出来,你怎么确定每一个字在图像中的位置啊?
    lichdkimba
        2
    lichdkimba  
       2020-10-31 17:37:23 +08:00
    如果量不大 手打最快最简单
    cbwood
        3
    cbwood  
    OP
       2020-10-31 17:42:43 +08:00 via Android
    @jdhao 这也是一个问题
    cbwood
        4
    cbwood  
    OP
       2020-10-31 17:43:02 +08:00 via Android
    @lichdkimba 量很大,500 页 pdf
    coderluan
        5
    coderluan  
       2020-10-31 17:52:39 +08:00   3
    给个思路,首先把根据文字颜色把图像二值化(文字的颜色全变成白色,其余的颜色变成黑色),然后进行膨胀变化(白色会变胖),这样文字部分会连成大白块,然后可以获取这些大白块的轮廓,然后获取这个轮廓的最小外接矩形,然后在原图中按这个矩形裁剪就行了,可以用 opencv 实现,上面提到的操作全有现成的 API 。
    jdhao
        6
    jdhao  
       2020-10-31 18:47:48 +08:00 via Android
    @coderluan 太不稳定,有的文字挨的很近,你这样能保证每个文字一个连通域吗
    cbwood
        7
    cbwood  
    OP
       2020-10-31 19:09:45 +08:00
    @jdhao 基本我的原始图片是可以保证的
    3dwelcome
        8
    3dwelcome  
       2020-10-31 19:23:19 +08:00 via Android
    调用个 pdf 库,把 unicode 每个字符,逐个转换成图片不就可以了。
    upczww
        9
    upczww  
       2020-10-31 19:25:36 +08:00 via Android
    先用文本检测,再用 ocr
    cbwood
        10
    cbwood  
    OP
       2020-10-31 20:28:47 +08:00
    @3dwelcome 请问可以具体说一下,没有找到可以识别 pdf 文字并保存为图片的库
    3dwelcome
        11
    3dwelcome  
       2020-10-31 23:38:18 +08:00 via Android
    @cbwood 不用 ocr 啊,你本来 pdf 里就是存文字的,随便用个库,读出来也是文字。
    如果原始 PDF,非汉子的那种语言是图片,那你直接切分图片就可以了,同样不需要 ocr 识别。
    turan12
        12
    turan12  
       2020-10-31 23:45:06 +08:00
    如果方便的话楼主可以把其中一段文字截图发上来看看
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     931 人在线   最高记录 6679       Select Language
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 19:14 PVG 03:14 LAX 12:14 JFK 15:14
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86