全职独立开发了几年,一直在更新维护的 APP 支持文字/表格/PDF/公式识别 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
legend2020
V2EX    分享发现

全职独立开发了几年,一直在更新维护的 APP 支持文字/表格/PDF/公式识别

  •  1
     
  •   legend2020 2020 年 7 月 26 日 2204 次点击
    这是一个创建于 2084 天前的主题,其中的信息可能已经有所发展或是发生改变。
    2010 年入行的程序猿,2015 年开始辞职做全职独立开发。因为一直对算法比较感兴趣( 15 年初还参加过 CSDN 的在线算法比赛,阴差阳错地得了第三名),所以打算做跟 OCR 有关的 app 。



    当时尝试了很多算法,后面感觉深度学习是个好东西,所以 app 直接就叫“深度识别”。虽然其实没有多少深度学习的东西(-_-||)。不过原创的 OCR 识别引擎还是保留下来了。

    一开始只有 OCR 文字识别(调百度的在线接口+本地 OCR 识别双引擎)的功能,后面模仿扫描全能王加入了制作 PDF 扫描件的功能。

    接着看到表格识别需求比较高,自己整了个表格识别的算法。在生成不规则表格上有时候比百度的表格识别接口还厉害一点(而且百度的表格识别接口太贵了,咱也用不起啊)。分析表格采用原创算法,但是构造表格调用了 C#。

    表格识别搞定后,又添加了个图片转 word 的功能。跟表格识别类似,版面分析算法是原创的,生成 word 在底层调用 C#相关的东西。

    PDF 识别就比较简单了,其实就是截图+OCR 文字识别。

    公式识别是调用 mathpix 的接口。毕竟业界最强,也就不考虑自己再造轮子了。


    ======================================================================

    16 年上线 ios 版本,app store 官网链接:

    https://apps.apple.com/cn/app/%E6%B7%B1%E5%BA%A6%E8%AF%86%E5%88%AB-%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E6%89%AB%E6%8F%8F%E5%85%A8%E8%83%BD%E7%8E%8B/id1179334124
    4 条回复    2021-02-25 00:02:30 +08:00
    jdhao
        1
    jdhao  
       2020 年 7 月 26 日 via Android
    有没有安卓版
    gladuo
        2
    gladuo  
       2020 年 7 月 26 日
    还是要专精,类似 mathpix,或者福昕,小方向做到最好,做 api 也有人愿意付费
    legend2020
        3
    legend2020  
    OP
       2020 年 7 月 26 日
    @jdhao 有的,酷安市场有最新版,但是不怎么稳定
    sonack
        4
    sonack  
       2021 年 2 月 25 日 via iPhone
    想问下楼主表格识别是采用的什么算法 有参考论文吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     831 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 20:47 PVG 04:47 LAX 13:47 JFK 16:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86