为什么 scrapy 爬虫没有一次性爬完 Rule 所需要的所有数据呢? - V2EX
首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI
- Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX
Python
为什么 scrapy 爬虫没有一次性爬完 Rule 所需要的所有数据呢?
Jessss
2017-05-18 11:37:35 +08:00
3056 次点击
这是一个创建于 3116 天前的主题,其中的信息可能已经有所发展或是发生改变。
我用 scrapy 和代理池爬拉勾网,中间没有报错,但是每次运行代码都只是爬一两万条数据就结束,下次运行又有新的数据,为什么不会一次性爬完所有数据呢?
望大神们指点,谢谢!
Scrapy
拉勾网
数据
爬
6 条回复
2017-05-21 16:43:25 +08:00
1
U7Q5tLAex2FI0o0g
2017-05-18 11:43:55 +08:00
是不是限制了深度了呢?
2
Jessss
OP
2017-05-18 11:50:49 +08:00
@
littleylv
没有设置深度或者广度之类的
3
dsg001
2017-05-18 14:35:19 +08:00
深层的模板有变化导致规则抓取不到,检查下最终页的模板是否匹配规则
4
Jessss
O
2017-05-19 14:04:58 +08:00
@
dsg001
其他页面也符合匹配规则的。中间尝试修改了 rule,多试几次居然被禁了,现在感觉是我的代理中间件有问题,好像没用到
5
dsg001
2017-05-19 18:25:27 +08:00
@
Jessss
返回脏数据吗?只能加日志,一步步调试检查
6
Jessss
OP
2017-05-21 16:43:25 +08:00
@
dsg001
数据是正常的,我试试加日志看看先
关于
帮助文档
自助推广系统
博客
API
FAQ
Solana
829 人在线
最高记录 6679
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 28ms
UTC 20:13
PVG 04:13
LAX 12:13
JFK 15:13
Do have faith in what you're doing.
ubao
msn
snddm
index
pchome
yahoo
rakuten
mypaper
meadowduck
bidyahoo
youbao
zxmzxm
asda
bnvcg
cvbfg
dfscv
mmhjk
xxddc
yybgb
zznbn
ccubao
uaitu
acv
GXCV
ET
GDG
YH
FG
BCVB
FJFH
CBRE
CBC
GDG
ET54
WRWR
RWER
WREW
WRWER
RWER
SDG
EW
SF
DSFSF
fbbs
ubao
fhd
dfg
ewr
dg
df
ewwr
ewwr
et
ruyut
utut
dfg
fgd
gdfgt
etg
dfgt
dfgd
ert4
gd
fgg
wr
235
wer3
we
vsdf
sdf
gdf
ert
xcv
sdf
rwer
hfd
dfg
cvb
rwf
afb
dfh
jgh
bmn
lgh
rty
gfds
cxv
xcv
xcs
vdas
fdf
fgd
cv
sdf
tert
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
shasha9178
shasha9178
shasha9178
shasha9178
shasha9178
liflif2
liflif2
liflif2
liflif2
liflif2
liblib3
liblib3
liblib3
liblib3
liblib3
zhazha444
zhazha444
zhazha444
zhazha444
zhazha444
dende5
dende
denden
denden2
denden21
fenfen9
fenf619
fen619
fenfe9
fe619
sdf
sdf
sdf
sdf
sdf
zhazh90
zhazh0
zhaa50
zha90
zh590
zho
zhoz
zhozh
zhozho
zhozho2
lislis
lls95
lili95
lils5
liss9
sdf0ty987
sdft876
sdft9876
sdf09876
sd0t9876
sdf0ty98
sdf0976
sdf0ty986
sdf0ty96
sdf0t76
sdf0876
df0ty98
sf0t876
sd0ty76
sdy76
sdf76
sdf0t76
sdf0ty9
sdf0ty98
sdf0ty987
sdf0ty98
sdf6676
sdf876
sd876
sd876
sdf6
sdf6
sdf9876
sdf0t
sdf06
sdf0ty9776
sdf0ty9776
sdf0ty76
sdf8876
sdf0t
sd6
sdf06
s688876
sd688
sdf86