
1 for4 2013-03-12 09:22:08 +08:00 Python +requests +lxml +celery |
4 xieren58 2013-03-12 09:40:41 +08:00 Node + jquery |
7 shinwood 2013-03-12 10:03:05 +08:00 |
8 greatghoul 2013-03-12 10:13:34 +08:00 @shinwood 这个用起来的确骚爽。 |
9 colincat 2013-03-12 10:13:35 +08:00 via Android java |
10 for4 2013-03-12 10:14:06 +08:00 @liuxurong 我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 |
11 wingoo 2013-03-12 10:53:32 +08:00 scrapy |
12 twm 2013-03-12 10:55:26 +08:00 JAVA PHP |
13 dulao5 2013-03-12 17:40:21 +08:00 PHP + curl_multi_* 不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 |
14 xjay 2013-03-12 20:05:01 +08:00 scrapy 不解释 |
15 PrideChung 2013-03-12 20:09:22 +08:00 ruby+norogiri http://nokogiri.org/ |
16 amxku 2013-03-12 20:30:18 +08:00 Python +curl +celery |
17 1up 2013-03-12 20:36:18 +08:00 http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python |
18 cloverstd 2013-03-12 21:14:19 +08:00 Python: urllib, urllib2, re |
19 run2 2013-03-12 22:18:01 +08:00 前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,- cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); |
20 chuck911 2013-03-12 22:34:53 +08:00 还有人写个爬虫还非要用芹菜... Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 |
23 Linxing 2013-03-13 01:23:03 +08:00 via Android python beautifulsoup urlib爬文章 |
25 crazybubble 2013-03-13 04:34:27 +08:00 @atom 用regex来做html parsing不推荐,我推荐用jsoup。 |
27 workaholic 2013-03-13 08:04:13 +08:00 php+snoopy |
28 akalanala 2013-03-13 08:48:24 +08:00 @crazybubble 同推荐. |
29 binux 2013-03-13 09:21:19 +08:00 python + tornado AsyncHTTPClient + PyQuery |
30 sonicwu 2013-03-13 09:24:32 +08:00 Java + jsoup Python + Beautiful Soup + urllib + lxml |
31 dingyaguang117 2013-03-13 10:05:15 +08:00 Python + Beautiful Soup + lxml + Scrapy |
32 atom 2013-03-13 13:59:52 +08:00 |
33 zoran 2013-03-14 13:12:55 +08:00 Java 可以试试这个 https://github.com/zhuoran/crawler4j |
34 yangxin0 2013-03-14 13:42:31 +08:00 看过别人用C |
35 Xrong 2013-03-14 18:43:04 +08:00 希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。 |
36 zdwalter 2013-03-15 16:21:50 +08:00 phantomjs, casperjs |
37 zhouquanbest 2013-03-16 18:17:38 +08:00 python + pyquery 是个好东西 会jquery就能写 |
38 nojt7Zm 2013-03-17 21:51:02 +08:00 php |
39 kingwkb 2013-03-17 21:58:54 +08:00 |
40 gameending 2013-03-17 22:09:33 +08:00 python跟java都写过,python很简洁,java的话我觉得也还不错 |
41 lbj96347 2013-03-17 23:08:21 +08:00 node.js or python. :-) |
42 kdepp 2013-07-07 23:03:59 +08:00 node + cheerio |
43 briefcopy 2014-08-18 21:22:21 +08:00 用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector |
44 cangbaotu 2016-05-24 17:12:36 +08:00 http://www.shenjianshou.cn/ 神箭手云爬虫 |
45 ssllff123 2016-10-10 14:56:50 +08:00 |
46 billyellow 2016-11-16 18:48:53 +08:00 推荐试下这个 http://www.zaoshu.io |
47 GrahamCloud 2017-02-23 14:11:42 +08:00 @billyellow 好的! |
48 jiankaikey 2018-11-30 18:50:29 +08:00 右键->另存为 |