最近公司要实现一个高性能的爬虫,用来爬取淘宝的商品信息,数量比较大,时间上也有要求;
我们公司现在有一个爬虫,是用PHP实现的,全部都是手写的,没有用什么框架,通过代理IP单进程来实现爬取页面;从上面的需求我们的想法是通过起多个进程来实现并发爬取淘宝页面;但是针对那么大的量我们必须充分利用我们的代理IP,但是又不能被淘宝封;
针对上面的这些描述,我想问我现在遇到的一些问题:
1. 如何高效的利用我们的代理IP(不是很多),又不被淘宝封(这个希望能比较详细点)?
2. 我们现在这套PHP架构是否合适做这个爬虫,如果不适合,能不能建议一下?
3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化,并且做出相应的调整,有人做过这个东西吗?
最后,谢谢大家啦...
我们公司现在有一个爬虫,是用PHP实现的,全部都是手写的,没有用什么框架,通过代理IP单进程来实现爬取页面;从上面的需求我们的想法是通过起多个进程来实现并发爬取淘宝页面;但是针对那么大的量我们必须充分利用我们的代理IP,但是又不能被淘宝封;
针对上面的这些描述,我想问我现在遇到的一些问题:
1. 如何高效的利用我们的代理IP(不是很多),又不被淘宝封(这个希望能比较详细点)?
2. 我们现在这套PHP架构是否合适做这个爬虫,如果不适合,能不能建议一下?
3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化,并且做出相应的调整,有人做过这个东西吗?
最后,谢谢大家啦...