新手用 Scrapy 写爬虫时，一直提示 URLError: <urlopen error timed out>求大神指导

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 3401 天前的主题，其中的信息可能已经有所发展或是发生改变。

URLError: <urlopen error timed out> [boto] ERROR: Unable to read instance data, giving up

爬取的是豆瓣图书 Top250 （ https://book.douban.com/top250 ）一直提示超时。

但是爬取豆瓣 9 分书单（ https://www.douban.com/doulist/1264675/ ）时就不会有问题。

两个页面的结构基本一样，代码只是稍微不同，大致是一样的。

但是在爬取时， Top250 的那个就一直报错， 9 分书单的那个可以正常爬取完成。

import scrapy from scrapy.contrib.spiders import CrawlSpider from scrapy.http import Request from scrapy.selector import Selector from douban_book.items import DoubanBookItem class Douban(CrawlSpider): name = "dbbook" start_urls = ( 'https://book.douban.com/top250' )

第 1 条附言 2016-06-22 16:31:42 +08:00

感谢各位的指导。爬虫已可以正常运行。
谢谢！

4 条回复 2016-06-22 16:55:51 +08:00

laozhao0

2016-06-22 15:27:28 +08:00

add "DOWNLOAD_HANDLERS = {'s3': None, }" to settings.py

brucedone

2016-06-22 15:58:16 +08:00

记得加上请求头，还有一些其它的参数都要填全

cashew

2016-06-22 16:12:25 +08:00

@laozhao0
@brucedone
请求头已加入。

File "/home/cashew/Codes/douban_book/douban_book/spiders/dbbook.py", line 37, in parse
item['bookesInfo'] = booksInfo
File "/usr/lib/python2.7/dist-packages/scrapy/item.py", line 63, in __setitem__
(self.__class__.__name__, key))
KeyError: 'DoubanBookItem does not support field: bookesInfo'

又报错了。

laozhao0

2016-06-22 16:55:51 +08:00

你的 DoubanBookItem 里没有 bookesInfo 字段，但是在 spider 里写了 item['bookesInfo'] = 'xxx' ?