在用 scrapy 写爬虫的时候，想爬 1 万条，实际只爬了 1000 条，如何解决

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2251 days ago, the information mentioned may be changed or developed.

想问下，这个问题如何解决啊？

用的是 mongo 数据库

ITEM_PIPELINES 设的是 300

mongo

Scrapy

解决

数据库

29 replies • 2020-05-19 17:40:55 +08:00

bnm965321

Mar 12, 2020

看下停下来的原因是为什么

bnm965321

Mar 12, 2020

ITEM_PIPELINE 我记得是设置优先级的，就是这个 PIPELINE 优先被使用

python30

Mar 12, 2020

是规则漏掉了那 9000
还是其它什么原因。
先少采点。
采 100 条看看能实际采多少。
这样分析就好办些了

Colorful

Mar 12, 2020

@bnm965321 个人是比较菜的那种，不知道怎么看原因

Colorful

Mar 12, 2020

@python30 采集 100-300 条数据是没问题的

Colorful

Mar 12, 2020

@bnm965321 这个我不太理解

U7Q5tLAex2FI0o0g

Mar 12, 2020

啥都别说，帖代码

bnm965321

Mar 12, 2020

@Colorful 看日志到第几页停下来的，看日志是不是列表页每个详情页都进去过

IanPeverell

Mar 12, 2020

可以把每一次请求都打一个日志出来，看是到哪个断掉的。再看看有没有报错信息，是不是写数据过程出问题了，或者连接超时了，实在不行就写多个爬虫来处理，每个爬虫只请求 1000 个。

sadfQED2

Mar 12, 2020

少量能抓到，大量抓不到，目测，你 ip 被封了

MilkShake

Mar 12, 2020

要不是代码，要不就是被检测到了。

Colorful

Mar 12, 2020

@IanPeverell 怎么打印日志啊？

IanPeverell

Mar 12, 2020

@Colorful scrapy.Spider 自带 logger，直接 self.logger.info()就可以。也有可能是请求过于频繁，可以在 settings 里面加上 AUTOTHROTTLE 的配置

vindurriel

Mar 12, 2020

感觉这个很适合做面试题啊
q: Scrapy 爬虫的停止条件是 10k urls, 为什么爬到 1k 就退出了? db 用 mongo
a: 我不可能知道（只有这么点信息就能给出答案的就不用继续面了）
q: 那我换一个问题掌握哪些信息有助于知道呢？
a: 你的输入条件（网站拓扑、配置详情、反爬规则），处理过程（代码、日志、系统事件），输出结果（ 1k 的 urls 和剩下 9k 的异同）
q: 这些信息的价值有没有主次之分？如果只能知道其中三个你会选啥？
a: 日志配置反爬规则
q: 如果怀疑是被反爬规则 ban 掉了如何验证或绕过？
a: 换 ip，降频率，分批爬
q: 如果让你写爬虫如何设计日志 /接口 /配置项目让使用者能更快地定位问题？
a: ...（开始 freestyle ）