This topic created in 2439 days ago, the information mentioned may be changed or developed.
Supplement 1 · Feb 20, 2020
Scrpay-Kafka-Redis
在有大量请求堆积的情况下,即使用了 Bloomfilter 算法,使用 scrapy-redis 仍然会占用大量内存,本项目参考 scrapy-redis,
特点
支持分布式
使用 Redis 作为去重队列 同时使用 Bloomfilter 去重算法,降低了内存占用,但是增加了可去重数量
使用 Kafka 作为请求队列 可支持大量请求堆积,容量和磁盘大小相关,而不是和运行内存相关
由于 Kafka 的特性,不支持优先队列,只支持先进先出队列