URLError: <urlopen error timed out>
[boto] ERROR: Unable to read instance data, giving up
爬取的是豆瓣图书 Top250 ( https://book.douban.com/top250 ) 一直提示超时。
但是爬取豆瓣 9 分书单( https://www.douban.com/doulist/1264675/ ) 时就不会有问题。
两个页面的结构基本一样,代码只是稍微不同,大致是一样的。
但是在爬取时, Top250 的那个就一直报错, 9 分书单的那个可以正常爬取完成。
import scrapy
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from douban_book.items import DoubanBookItem
class Douban(CrawlSpider):
name = "dbbook"
start_urls = (
'https://book.douban.com/top250'
)
1
laozhao0 2016-06-22 15:27:28 +08:00
add "DOWNLOAD_HANDLERS = {'s3': None, }" to settings.py
|
2
brucedone 2016-06-22 15:58:16 +08:00
记得加上请求头,还有一些其它的参数都要填全
|
3
cashew OP @laozhao0
@brucedone 请求头已加入。 File "/home/cashew/Codes/douban_book/douban_book/spiders/dbbook.py", line 37, in parse item['bookesInfo'] = booksInfo File "/usr/lib/python2.7/dist-packages/scrapy/item.py", line 63, in __setitem__ (self.__class__.__name__, key)) KeyError: 'DoubanBookItem does not support field: bookesInfo' 又报错了。 |
4
laozhao0 2016-06-22 16:55:51 +08:00
你的 DoubanBookItem 里没有 bookesInfo 字段,但是在 spider 里写了 item['bookesInfo'] = 'xxx' ?
|