单机爬虫我已经会弄了
但是分布式不会弄
数据库是postgresql
在我想象中,分布式爬虫是这样的:
一个控制中心,控制所有爬虫,给他们分配任务,并得到爬虫返回的结果
我的疑问是,
问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框架 什么算法 来实现?
问题2: 比如我有60个爬虫,他们怎么和控制中心通信 有什么框架 或者算法来实现吗
但是分布式不会弄
数据库是postgresql
在我想象中,分布式爬虫是这样的:
一个控制中心,控制所有爬虫,给他们分配任务,并得到爬虫返回的结果
我的疑问是,
问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框架 什么算法 来实现?
问题2: 比如我有60个爬虫,他们怎么和控制中心通信 有什么框架 或者算法来实现吗