需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦,有没有训练好的字库?或者其他的方法可以实现本地的中文识别。
![]() | 1 wshedu 2018-01-21 14:07:43 +08:00 百度和腾讯云都有 ocr 在线识别。 |
3 woyaojizhu8 2018-01-21 14:24:02 +08:00 不存在的,中文识别只有 abbyy 文通和汉王 |
4 Genii 2018-01-21 16:27:50 +08:00 via Android /s/1c3FuQFQ 不知道能不能用 |
![]() | 5 murmur 2018-01-21 16:51:10 +08:00 训练这个东西最好是自己做 除非是标准的印刷体 或者直接像 1 楼说的用云服务不更好 |
![]() | 6 m939594960 2018-01-21 19:03:49 +08:00 我也有类似的需求,但是都是标准的字体,有没有那种按字体训练好的 |
![]() | 7 lonelygo 2018-01-21 19:50:03 +08:00 @woshichuanqilz @m939594960 如果是标准字体,用 tesseract 3.05 版本,是基于机器学习的方法而不是深度学习,自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件,人工校对这个工作量不小,真训练过程很快也不难。 4.0 版本是基于 LSTM 的,算是深度学习的方法了,需要的数据集更大也会更慢,而且官方文档写的比较晦涩,需要结合代码和 3.0*的方法一起理解。 现成的,那就是 3 楼推荐的了,花钱买吧。 |
8 WispZhan 2018-01-21 20:19:15 +08:00 tesseract 这玩意,做中文识别很淡疼的。针对不同字体训练库最后弄出来很大很大。特别是字体多了之后…… |
![]() | 9 zonghua 2018-01-21 21:03:16 +08:00 via iPhone |
![]() | 10 SatanFu 2018-01-22 10:15:10 +08:00 https://github.com/tesseract-ocr/tessdata 这里有一些训练好的数据 |
![]() | 12 lonelygo 2018-01-22 12:35:00 +08:00 |
![]() | 13 faicker 2018-01-22 13:29:34 +08:00 4.0 最新的 master,用的这里的已经训练好的字库,https://github.com/tesseract-ocr/tessdata_best 识别率感觉还行。 |
![]() | 14 woshichuanqilz OP ![]() @faicker 用了, 好一点但是也比较不理想, 谢谢~ |
![]() | 15 sayyoume 2018-11-12 18:14:03 +08:00 请问 windows 下 你们是怎么编译通过的?翻墙? |
![]() | 16 craftx 2023-05-08 18:04:31 +08:00 实测 https://github.com/tesseract-ocr/tessdata_best 的中文训练集较理想,基本满足需求 |