
1 mrytsr 2014-10-04 19:09:44 +08:00 via Android Scrapy |
2 mhycy 2014-10-04 19:17:18 +08:00 手写.... Requests + re + threading + logging 各种爽~ PS.其实是觉得框架太不灵活了 |
3 paulw54jrn 2014-10-04 20:22:04 +08:00 不是很复杂就是楼上说的 requests + re + threading/greenlets 或者是楼上上说的 Scrapy.. |
4 ShiehShieh 2014-10-04 20:37:56 +08:00 有没有什么好点的材料能学习嘛? 0.0 |
5 binux 2014-10-04 20:42:33 +08:00 |
7 XadillaX 2014-10-04 21:40:50 +08:00 -。 - 为什么没多少人学 node 做爬虫呢? |
8 chemzqm 2014-10-04 22:44:35 +08:00 node异步回调太恶心,占用内存太高,低配机器跑不了几个进程 |
9 R4rvZ6agNVWr56V0 2014-10-04 23:13:37 +08:00 曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy |
10 Codist 2014-10-04 23:35:52 +08:00 scrapy简单又方便,selector用起来也很舒服,不用写正则了 |
11 kenis 2014-10-05 02:54:57 +08:00 推荐用Scrapy,比较成熟的爬虫框架,资源也不少。 |
12 cha1 2014-10-05 06:12:50 +08:00 |
13 briefcopy 2014-10-05 09:38:11 +08:00 WebCollector: http://www.brieftools.info/document/webcollector/ |
14 imn1 2014-10-05 10:40:13 +08:00 我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath 无论用什么,通读http协议+抓包工具是跑不掉的 |
15 ericls 2014-10-05 14:07:54 +08:00 via Android requests pyquery |
16 helloworld00 2014-10-05 18:24:36 +08:00 |