今天抽空做了个 3-8 位验证码识别模型,发现正确率可以 98%,好奇如果我把这个模型做成 API 服务会有人用么,以及再设计一种对抗识别的算法(类似 recaptcha) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
dick20cm
V2EX    奇思妙想

今天抽空做了个 3-8 位验证码识别模型,发现正确率可以 98%,好奇如果我把这个模型做成 API 服务会有人用么,以及再设计一种对抗识别的算法(类似 recaptcha)

  •  
  •   dick20cm 2021-05-21 14:54:05 +08:00 5972 次点击
    这是一个创建于 1605 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言    2021-05-23 17:53:23 +08:00
    看来很多小伙伴对这个有兴趣,于是我做了个临时 api 给大家玩:
    http://139.155.177.88/

    这个东西非常消耗资源,所以有请求限制,大概是一分钟以内可以连续请求 5 个,超过限制后会 503 service unavaliable

    大家轻点玩
    36 条回复    2021-05-28 17:11:24 +08:00
    shawnbluce
        1
    shawnbluce  
       2021-05-21 15:04:21 +08:00
    验证码贴两个例子出来看看呐,看看是什么复杂度的
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       2021-05-21 15:04:59 +08:00   1
    大概率 overfit 了
    cnzjl
        3
    cnzjl  
       2021-05-21 15:13:30 +08:00
    肯定有人用。灰产的
    learningman
        4
    learningman  
       2021-05-21 15:13:42 +08:00
    你是不是忘了咱们是中国人,验证码可以上中文的。。。
    foil2
        5
    foil2  
       2021-05-21 15:15:19 +08:00
    肯定有人用的,
    参考下面这个成熟的打码平台
    http://www.damagou.top/index.html
    Puteulanus
        6
    Puteulanus  
       2021-05-21 15:46:56 +08:00   7
    现在对抗的已经快到人都做不出来的程度了
    https://www.163.com/dy/article/G6CNEFDF0526Q3CJ.html
    westoy
        7
    westoy  
       2021-05-21 15:50:16 +08:00
    会有法律风险吧

    要有哪个大平台被薅狠了走法律程序你肯定是共同被告啊.....
    dick20cm
        8
    dick20cm  
    OP
       2021-05-21 16:45:34 +08:00
    @liprais 没有 overfit,贴个 f1_score 你瞧瞧
    [6] 0.988 [['^', '0.000'], ['0', '0.941'], ['1', '0.976'], ['2', '0.981'], ['3', '0.985'], ['4', '0.985'], ['5', '0.984'], ['6', '0.985'], ['7', '0.967'], ['8', '0.981'], ['9', '0.990'], ['a', '0.988'], ['b', '0.977'], ['c', '0.983'], ['d', '0.964'], ['e', '0.988'], ['f', '0.988'], ['g', '0.992'], ['h', '0.991'], ['i', '0.977'], ['j', '0.982'], ['k', '0.987'], ['l', '0.974'], ['m', '0.985'], ['n', '0.972'], ['p', '0.986'], ['q', '0.988'], ['r', '0.980'], ['s', '0.991'], ['t', '0.982'], ['u', '0.985'], ['v', '0.984'], ['w', '0.985'], ['x', '0.990'], ['y', '0.987'], ['z', '0.985'], ['$', '1.000']]
    dick20cm
        9
    dick20cm  
    OP
       2021-05-21 16:46:02 +08:00
    @learningman 感觉识别中文也可以 95+%
    dick20cm
        10
    dick20cm  
    OP
       2021-05-21 16:46:22 +08:00
    @foil2 可怕,第一次见这种灰产网址
    dick20cm
        11
    dick20cm  
    OP
       2021-05-21 16:46:48 +08:00
    @Puteulanus niub,这种大概是用游戏引擎渲染出来的
    dick20cm
        12
    dick20cm  
    OP
       2021-05-21 16:47:11 +08:00
    @westoy 是,所以只是想法并没有实践
    tfdetang
        13
    tfdetang  
       2021-05-21 16:59:44 +08:00
    只是 3-8 位的数字英文识别大家都做的很成熟了吧,现在用这种验证码的也少了,搞头不大。 以前公司需要有做过英文数字的,还有点选的。点选的稍微难点,但是也不是很难攻克。 不过后来觉得打码平台也不贵,自己做还要花人力维护出机器,实在划不来
    ch1ps79
        14
    ch1ps79  
       2021-05-21 17:28:16 +08:00 via Android
    有网址吗
    yunyuyuan
        15
    yunyuyuan  
       2021-05-21 17:30:33 +08:00
    每次想下载战网打打 OW,就想到了被验证码支配的恐惧,感谢网易帮我戒网瘾
    securityCoding
        16
    securityCoding  
       2021-05-21 17:31:31 +08:00
    @Puteulanus cloudflare 人机检测每次都是找汽车 /自行车 ,还 tm 翻页,太过分了
    dick20cm
        17
    dick20cm  
    OP
       2021-05-21 17:36:10 +08:00
    @ch1ps79 还没做呢,来找大家探讨一下这个东西的实际价值,改天有空我会 publish 出来
    otakustay
        18
    otakustay  
       2021-05-21 18:14:58 +08:00
    @securityCoding 你每一次做这个都成为他们的 AI 的训练素材,老工具人了
    Stain5
        19
    Stain5  
       2021-05-21 18:16:02 +08:00
    一和那些七七八八的验证系统比 recaptcha 真的是我见过最友好的了
    tabris17
        20
    tabris17  
       2021-05-21 18:18:15 +08:00
    @westoy 伪装成普通的 OCR 服务呗
    maemual
        21
    maemual  
       2021-05-21 18:21:46 +08:00
    讲道理普通的中英文数字这些,找个模型训练训练,也不用太高的识别率,失败了换个验证码多试几次,概率就上去了。
    foil2
        22
    foil2  
       2021-05-21 19:04:02 +08:00
    @dick20cm 这种是刚需,挺多人用的。灰产不至于,人家致力于视障人士哈哈哈哈
    herozzm
        23
    herozzm  
       2021-05-21 19:22:37 +08:00 via Android
    支持楼主 我之前用的云打码 倒闭了,没有称手的,好了 M 我一下 我要用
    jeremaihloo
        24
    jeremaihloo  
       2021-05-21 19:50:51 +08:00
    @herozzm 我一直在用图鉴,感觉挺好的
    dick20cm
        25
    dick20cm  
    OP
       2021-05-21 22:31:21 +08:00 via Android
    @maemual 我本来也是这样想的,不过一不小心轻松做到 98%
    ddzzhen
        26
    ddzzhen  
       2021-05-22 09:44:44 +08:00 via Android
    肯定有人用啊,不一定要干坏事
    raycool
        27
    raycool  
       2021-05-22 14:12:01 +08:00
    贴两个图看看验证码的例子是什么样的
    Rainwater
        28
    Rainwater  
       2021-05-22 14:15:16 +08:00
    很多通用模型都能达到这个准确率吧,不是太复杂的话
    7gugu
        29
    7gugu  
       2021-05-22 15:15:53 +08:00
    开放出来,让人们离线部署就好了
    dick20cm
        30
    dick20cm  
    OP
       2021-05-23 17:55:06 +08:00
    @shawnbluce @liprais @foil2 @ch1ps79 @ddzzhen @raycool @7gugu
    大哥们轻点,服务器怕痛
    7075
        31
    7075  
       2021-05-25 09:45:36 +08:00
    类似的东西烂大街了吧
    liuky
        32
    liuky  
       2021-05-25 16:01:20 +08:00
    其他网站的验证码准确率太低了
    dick20cm
        33
    dick20cm  
    OP
       2021-05-27 11:11:47 +08:00
    @liuky 哈哈,这就是人工智障,所以我把 api public 然后收集一些大家上传识别的样本,等下一次迭代后,对其他样式的验证码识别率就会提高很多了
    ourongxing
        34
    ourongxing  
       2021-05-27 18:02:52 +08:00
    我现在还记得以前看过一个段子,说验证码识别都是发给印度人工识别的,不知道是不是真的,可能以前技术达不到
    duian
        35
    duian  
       2021-05-27 21:23:49 +08:00
    坐等 publish
    huyi23
        36
    huyi23  
       2021-05-28 17:11:24 +08:00   1
    验证码。。。真的不是门槛,需要的是 google 验证码那种
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2185 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 16:09 PVG 00:09 LAX 09:09 JFK 12:09
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86