开源一个 python 脚本驱动的定向爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 4236 天前的主题，其中的信息可能已经有所发展或是发生改变。

python爬虫绝大多数都是定向抓取，并进行一定程度的结构化解析

这套爬虫设计采用python脚本驱动抓取动作，适用于各类页面（要实现通用爬虫也没问题）
经过实践证明好用的更新调度机制，以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控，看图你就懂了：

这套爬虫是我一年多前设计开发的，抓取200个站点，在至少2个商业环境中运行，现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。

github项目： https://github.com/binux/pyspider
快速开始： https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档： https://github.com/binux/pyspider/wiki

第 1 条附言 2014-03-09 22:10:47 +08:00

由于目前仅在 Linux/OSX with python2.7 环境下测试通过，如果您没有环境
可以在 https://koding.com/R/binux（推荐链接）申请到一台 ubuntu 的临时开发环境

sudo apt-get install python-dev python-pip libxml2-dev libxslt-dev libz-dev python-pycurl
git clone https://github.com/binux/pyspider.git
cd pyspider
sudo pip install -r requirements.txt
sed -i "s/app.run()/app.run('0.0.0.0')/" run.py
./run.py

然后访问 http://<username>.kd.io:5000/

第 2 条附言 2014-03-10 13:06:39 +08:00

现在手上没有使用场景，如果有持续运营的实例，可以提供支持

爬虫

Python

抓取

55 条回复 2016-02-16 22:37:31 +08:00

yanwen

2014-03-09 17:00:19 +08:00

支持一个。

alexapollo

2014-03-09 17:09:20 +08:00

看起来还不错~

hhrmatata

2014-03-09 17:09:54 +08:00

有web调试和监控，看起来很不错

arbipher

2014-03-09 17:14:37 +08:00

赞！
抓取200个站点，求加到wiki上。

hadoop

2014-03-09 17:48:11 +08:00

赞！

9hills

2014-03-09 18:03:47 +08:00

支持一下

binux

2014-03-09 18:49:44 +08:00

@arbipher 以前的脚本放出来不好。。而且不兼容了

arbipher

2014-03-09 19:04:21 +08:00

@binux 说的也是，但是就这个是比较恶心的地方。。。

exoticknight

2014-03-09 19:09:19 +08:00

其实是终结各种我们大家写python爬虫的必要……

RIcter

2014-03-09 19:42:56 +08:00

请手下我的膝盖...已感谢

figo

2014-03-09 20:08:15 +08:00

看起来不错

chon

2014-03-09 20:35:31 +08:00

从BYR论坛过来支持一下~

moroumo

2014-03-09 20:40:43 +08:00

支持啊，我也用scrapy写过一个简单的

caomu

2014-03-10 00:08:13 +08:00

手机上手动回复点赞加马克。。。

forever139

2014-03-10 08:57:26 +08:00

支持下

lj0014

2014-03-10 10:27:41 +08:00

自带webui非常不错

nealv2ex

2014-03-10 11:32:37 +08:00

看了一上午了，我的python果真是战5渣。

spritevan

2014-03-10 11:36:52 +08:00

这个 webui 好丑啊

binux

2014-03-10 11:38:00 +08:00

@spritevan 帮我改啊

spritevan

2014-03-10 11:41:08 +08:00

只会说不会改啊（＾ω＾）

cooiky

2014-03-10 13:07:47 +08:00

这个长时间抓，会被目标站ban掉么

binux

2014-03-10 13:08:25 +08:00

@cooiky 有流量控制和代理支持

sjrong

2014-03-10 13:51:28 +08:00

我已经通过贡献1GB空间来支持啦呵呵~

yupeng

2014-03-10 14:19:37 +08:00

赞，支持一下

primer

2014-03-10 14:42:22 +08:00

楼主你好，你这款爬虫适用于非结构式的网页信息爬取吗？

还有如果我想爬取Google play商店上APP下的所有用户评论，能做到吗？谢谢楼主！

binux

2014-03-10 15:39:15 +08:00

@primer 可以，如果要所有的，需要分析出翻页的url

simapple

2014-03-10 16:47:50 +08:00

顶起

manhere

2014-03-10 16:52:35 +08:00

@binux 你那个推广链接识别错误，汉字连一块了

binux

2014-03-10 17:22:19 +08:00

@manhere 不能改没辙啊。。

vaneoooo

2014-03-10 18:27:09 +08:00

@primer 抓这个作用在于？

run2

2014-03-10 18:33:39 +08:00

很牛的样子，请问如果采集到了一个索引页，怎么把索引页里的url自动加到task里？并调用不同的Handler

binux

2014-03-10 19:09:27 +08:00

@sobigfish self.crawl 用于创建 task，这里设计上不是通过不同的 Handler，而是不同的 callback函数来区分的。一个 Handler 固定处理同一个站点（project）的各类页面。
如果确有必要跨 Handler，第二里程碑会实现 send_message 特性可以实现。