URLError: <urlopen error timed out> [boto] ERROR: Unable to read instance data, giving up
爬取的是豆瓣图书 Top250 ( https://book.douban.com/top250 ) 一直提示超时。
但是爬取豆瓣 9 分书单( https://www.douban.com/doulist/1264675/ ) 时就不会有问题。
两个页面的结构基本一样,代码只是稍微不同,大致是一样的。
但是在爬取时, Top250 的那个就一直报错, 9 分书单的那个可以正常爬取完成。
import scrapy from scrapy.contrib.spiders import CrawlSpider from scrapy.http import Request from scrapy.selector import Selector from douban_book.items import DoubanBookItem class Douban(CrawlSpider): name = "dbbook" start_urls = ( 'https://book.douban.com/top250' )
1 laozhao0 2016-06-22 15:27:28 +08:00 add "DOWNLOAD_HANDLERS = {'s3': None, }" to settings.py |
![]() | 2 brucedone 2016-06-22 15:58:16 +08:00 记得加上请求头,还有一些其它的参数都要填全 |
![]() | 3 cashew OP @laozhao0 @brucedone 请求头已加入。 File "/home/cashew/Codes/douban_book/douban_book/spiders/dbbook.py", line 37, in parse item['bookesInfo'] = booksInfo File "/usr/lib/python2.7/dist-packages/scrapy/item.py", line 63, in __setitem__ (self.__class__.__name__, key)) KeyError: 'DoubanBookItem does not support field: bookesInfo' 又报错了。 |
4 laozhao0 2016-06-22 16:55:51 +08:00 你的 DoubanBookItem 里没有 bookesInfo 字段,但是在 spider 里写了 item['bookesInfo'] = 'xxx' ? |