这是一个创建于 1917 天前的主题,其中的信息可能已经有所发展或是发生改变。
第 1 条附言 · 2020-02-20 17:28:04 +08:00
Scrpay-Kafka-Redis
在有大量请求堆积的情况下,即使用了 Bloomfilter 算法,使用 scrapy-redis 仍然会占用大量内存,本项目参考 scrapy-redis,
特点
支持分布式
使用 Redis 作为去重队列 同时使用 Bloomfilter 去重算法,降低了内存占用,但是增加了可去重数量
使用 Kafka 作为请求队列 可支持大量请求堆积,容量和磁盘大小相关,而不是和运行内存相关
由于 Kafka 的特性,不支持优先队列,只支持先进先出队列