scrapy:为什么有些 Crawled (200)的没有 Scraped 下来

2019-04-01 00:00:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=4> (referer: https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD)
2019-04-01 00:00:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=3> (referer: https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD)
2019-04-01 00:00:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=3>

如上，page=3 的就 scraped 下来了，而 page=4 的这个只是 crawled 了并没有 scraped，这是为什么，存在好多这样的情况。

scraped

crawled

2019-04-01

debug

2 replies • 2019-04-07 22:50:53 +08:00

dylanhu

Apr 2, 2019

重点是前几天没什么这种情况，这两天开始数据少了很多

huyu

Apr 7, 2019 via Android

@dylanhu 你可以试着打印 response.text 看看什么内容!