公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。

公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。
1 superhuai Apr 20 偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。 |
2 Wao Apr 20 deepseek ocr |
3 Mogugugugu Apr 20 Paddle OCR 试试 |
4 66beta Apr 20 听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余 |
5 Leon6868 Apr 20 也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了 |
6 raptor Apr 20 @Mogugugugu 百度这个确实还行 |
7 diudiuu Apr 20 gemma+ocr 一套 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main mmproj-BF16.gguf 这个是图片模型 |
8 honda720 Apr 20 Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的 |
9 xyooyx Apr 20 Topdu/OpenOCR 前段时期试了个小型的,效果不错 |
10 defunct9 Apr 20 mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/ |
11 wnpllrzodiac Apr 20 rapid OCR |
12 cheng6563 Apr 20 跑个 qwen 看效果怎样。 |
13 labubu Apr 20 百度 Paddle server 版本 |
14 iorilu Apr 20 关注下, 模型太多了 现在有什么排行榜或确认的评测, 那几个模型领先吗 |
15 TuringGooner Apr 20 之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的 |
16 Seanfuck Apr 20 Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。 |
17 picone Apr 20 paddle OCR ,性能也不错 |
18 BlueSkyXN Apr 20 我一般用 MAC 自带的 |
19 pandaPapa Apr 20 deepseek ocr 好像免费的 |
20 SmallBlueZhao Apr 20 |
21 whitewatercn Apr 20 之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了 先部署 https://forum.beginner.center/t/topic/2677 再调用 https://forum.beginner.center/t/topic/2681 |
22 whitewatercn Apr 20 @SmallBlueZhao #20 有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用 |
23 tianjiyao Apr 20 @SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂 |
24 ShawnShi PRO https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的 |
25 mashimaroinfo1 Apr 20 |
26 Les1ie Apr 20 直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :) |
27 livelyyongheng1 Apr 20 那必然是 paddle |
28 NizumaEiji Apr 20 paddle ocr 吧 日常用比较稳 没必要上多模态的 llm 吧 |
29 AiBoy Apr 20 识别中文手写最强的是谁呢? |
30 superPONY Apr 20 巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈 |
31 andlp Apr 20 yolo 效果比大模型好 定位订单的区域,针对这个字体识别,然后只识别 0-9 这 10 个数字 效果比什么大模型都要好的多 |
32 berry10086 Apr 20 easyocr 也可以 |
33 miaomiao888 Apr 21 @AiBoy 合合 OCR |
34 SanjinGG Apr 21 rapidocr |
35 Selenium39 Apr 21 llmocr |
37 JoeSmith Apr 21 |
38 fork3rt Apr 21 Paddle OCR VL 即可 |
39 ukoudai Apr 21 你直接使用 macos,自带 视觉识别的 ,速度还贼快 |
40 lyhiving Apr 21 识别中文手写最强的是谁呢? |
42 fenildf Apr 21 @whitewatercn 这种在 windows 下有法部署吗? |
43 fenildf Apr 21 @superPONY 已 star 。看起来挺好。想自己试试,发现缺指导文件 BUILD_GUIDE.md |
44 EchoPrince OP @berry10086 今天简单试了下,手机截图准确率很高了,但是相机拍摄的照片有时候订单号中间会缺失 3-4 位数字 |
45 fenildf Apr 22 @EchoPrince 相机应该分辨率更高吧。不过可能被环境影响了 |
46 whitewatercn Apr 24 @fenildf #42 windows 没试过,但是最简单的就是上 docker 吧,只要能启动 paddleocr 就行 |
47 fenildf Apr 27 @whitewatercn 好的,谢谢 |