网上看到又不少类似的轮子,但是大多都是 Pyhton,于是撸了一个 C#版本的WeGouSharp (即 Wechat+ Sogou + Csharp)
暂时采用 HtmlAgility 解析 html
目前已经完成了基本部分
但是仍然存在一些小骨头没啃,比如有个验证码的没能重现(望指点)
还有自动打码,等等,可能会采用 OpenCv/EmguCV 识别验证码,不知道可行性怎样
现在公开请各位大佬批评,点星或者来叉
![]() | 1 4BVL25L90W260T9U 2017-09-13 20:41:22 +08:00 不可行, 搜狗的验证码很变态的 |
![]() | 2 WeaPoon 2017-09-13 21:33:16 +08:00 加油~~哈! |
![]() | 3 justtery 2017-09-13 21:39:15 +08:00 via Android 辛苦了,用 c 艹写爬虫。写个简单的页面抓取都需要写超级多行。并不想打消楼主的积极性 |
4 lyhiving 2017-09-13 21:55:02 +08:00 via Android 可以过得了验证码这一关算我输 |
5 levon 2017-09-13 21:58:44 +08:00 我解析 html 用 csquery,虽然不更新,但感觉超级简单。就跟使用 jquery 一样去获取元素 |
6 Choyes 2017-09-13 22:35:17 +08:00 之前爬过搜狗的微信公众号文章,不过我并没有去处理验证码,而是通过代理来绕过。 |
8 yangyaofei 2017-09-14 00:20:46 +08:00 via Android 话说微信公众号的评论怎么抓取呢? |
9 Choyes 2017-09-14 08:50:03 +08:00 ![]() @wqxuan 我是去抓取免费的代理,然后自己维护一个代理 ip 池.参照这边 https://github.com/jhao104/proxy_pool 用 c#做了个简单的代理 ip 池 |
10 missdeer 2017-09-14 09:02:20 +08:00 过不了验证码关就没什么用 |
![]() | 11 naomhan 2017-09-14 09:51:49 +08:00 验证码我们公司有人用 tensorflow 训练了个模型 好像识别率还可以 |
![]() | 12 VShawn 2017-09-14 10:21:01 +08:00 为什么要爬微信公众号? |
![]() | 13 ljcarsenal 2017-09-14 10:33:59 +08:00 @VShawn 我也有疑问 不过最先做这个的 传送门 的确是火起来了 |
![]() | 14 finalsatan 2017-09-14 13:19:40 +08:00 @naomhan 有训练数据集可以分享下吗,最近也在做这个,数据量不够,自己生成的验证码总感觉和搜狗的不太一样。谢谢了先。 |
![]() | 15 naomhan 2017-09-14 14:27:12 +08:00 ![]() @finalsatan #14 不断请求验证码那个链接 就有了 |
16 hluo7054 OP @ljcarsenal 发现传送门貌似已经一个多月没更新了,所以才发了这个出来 |