又创造了一个轮子, C#版本的搜狗微信公众号抓取 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
hluo7054
V2EX    程序员

又创造了一个轮子, C#版本的搜狗微信公众号抓取

  • &bsp;
  •   hluo7054 2017-09-13 20:34:09 +08:00 4687 次点击
    这是一个创建于 2951 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网上看到又不少类似的轮子,但是大多都是 Pyhton,于是撸了一个 C#版本的WeGouSharp (即 Wechat+ Sogou + Csharp)

    暂时采用 HtmlAgility 解析 html

    目前已经完成了基本部分

    但是仍然存在一些小骨头没啃,比如有个验证码的没能重现(望指点)

    还有自动打码,等等,可能会采用 OpenCv/EmguCV 识别验证码,不知道可行性怎样

    现在公开请各位大佬批评,点星或者来叉

    项目地址

    16 条回复    2017-09-15 19:19:13 +08:00
    4BVL25L90W260T9U
        1
    4BVL25L90W260T9U  
       2017-09-13 20:41:22 +08:00
    不可行, 搜狗的验证码很变态的
    WeaPoon
        2
    WeaPoon  
       2017-09-13 21:33:16 +08:00
    加油~~哈!
    justtery
        3
    justtery  
       2017-09-13 21:39:15 +08:00 via Android
    辛苦了,用 c 艹写爬虫。写个简单的页面抓取都需要写超级多行。并不想打消楼主的积极性
    lyhiving
        4
    lyhiving  
       2017-09-13 21:55:02 +08:00 via Android
    可以过得了验证码这一关算我输
    levon
        5
    levon  
       2017-09-13 21:58:44 +08:00
    我解析 html 用 csquery,虽然不更新,但感觉超级简单。就跟使用 jquery 一样去获取元素
    Choyes
        6
    Choyes  
       2017-09-13 22:35:17 +08:00
    之前爬过搜狗的微信公众号文章,不过我并没有去处理验证码,而是通过代理来绕过。
    wqxuan
        7
    wqxuan  
       2017-09-13 23:19:28 +08:00 via iPhone
    @Choyes 请问下用的哪家代理?最近试用了一家的入门级公开代理(付费),效果很差。
    yangyaofei
        8
    yangyaofei  
       2017-09-14 00:20:46 +08:00 via Android
    话说微信公众号的评论怎么抓取呢?
    Choyes
        9
    Choyes  
       2017-09-14 08:50:03 +08:00   1
    @wqxuan 我是去抓取免费的代理,然后自己维护一个代理 ip 池.参照这边 https://github.com/jhao104/proxy_pool 用 c#做了个简单的代理 ip 池
    missdeer
        10
    missdeer  
       2017-09-14 09:02:20 +08:00
    过不了验证码关就没什么用
    naomhan
        11
    naomhan  
       2017-09-14 09:51:49 +08:00
    验证码我们公司有人用 tensorflow 训练了个模型 好像识别率还可以
    VShawn
        12
    VShawn  
       2017-09-14 10:21:01 +08:00
    为什么要爬微信公众号?
    ljcarsenal
        13
    ljcarsenal  
       2017-09-14 10:33:59 +08:00
    @VShawn 我也有疑问 不过最先做这个的 传送门 的确是火起来了
    finalsatan
        14
    finalsatan  
       2017-09-14 13:19:40 +08:00
    @naomhan 有训练数据集可以分享下吗,最近也在做这个,数据量不够,自己生成的验证码总感觉和搜狗的不太一样。谢谢了先。
    naomhan
        15
    naomhan  
       2017-09-14 14:27:12 +08:00   1
    @finalsatan #14 不断请求验证码那个链接 就有了
    hluo7054
        16
    hluo7054  
    OP
       2017-09-15 19:19:13 +08:00
    @ljcarsenal 发现传送门貌似已经一个多月没更新了,所以才发了这个出来
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1028 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 18:06 PVG 02:06 LAX 11:06 JFK 14:06
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86