要实现高效的爬虫，大家能给点建议不？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4169 days ago, the information mentioned may be changed or developed.

最近公司要实现一个高性能的爬虫，用来爬取淘宝的商品信息，数量比较大，时间上也有要求；

我们公司现在有一个爬虫，是用PHP实现的，全部都是手写的，没有用什么框架，通过代理IP单进程来实现爬取页面；从上面的需求我们的想法是通过起多个进程来实现并发爬取淘宝页面；但是针对那么大的量我们必须充分利用我们的代理IP，但是又不能被淘宝封；

针对上面的这些描述，我想问我现在遇到的一些问题：

1. 如何高效的利用我们的代理IP(不是很多)，又不被淘宝封(这个希望能比较详细点)？
2. 我们现在这套PHP架构是否合适做这个爬虫，如果不适合，能不能建议一下？
3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化，并且做出相应的调整，有人做过这个东西吗？

最后，谢谢大家啦...

爬虫

代理

淘宝

23 replies • 2014-12-25 11:09:35 +08:00

ming2050

Dec 22, 2014 via Android

你得监控下，看看你们的瓶颈在哪里，然后才能考虑怎么优化

andrewrong

Dec 22, 2014

@mringg 目前我们测试发现爬取一个商品基本上要花3s，如果代理IP比较好的话就比较快；3s基本算是一个平均值；最后爬取的页面通过正则把要的内容取出然后存入数据库；现在是单进程所以代理IP还没充分的利用起来;

haker

Dec 22, 2014

拨号换IP呀！

andrewrong

Dec 22, 2014

@haker 是公司，用拨号换IP可行吗？我在google的时候也有人提出，我不是很理解这个概念，是不是重新拨号IP就会换这个意思？

haker

Dec 22, 2014

看错了，你的是php的。
写客户端，拨号换ip，开50-100线程，没日没夜的爬

R4rvZ6agNVWr56V0

Dec 22, 2014

高效可由不得你，电商网站都有反爬虫机制，你速度快起来了也够呛能提高爬取效率。
使用PHP的话也可以搞个多进程的爬虫，语言并不是什么太大问题。关键是你爬虫的调度策略。

andrewrong

Dec 22, 2014

@GeekGao 你说的爬虫调度策略具体指什么？

haker

Dec 22, 2014

@andrewrong 重新拨号就会换ip，去电信申请多进程，可以各地政策不一样，我们这里可以申请到2个进程，就是一个猫同一个账号，两台机器可以同时进行拨号。

R4rvZ6agNVWr56V0

Dec 22, 2014

@andrewrong
什么时间爬什么内容什么时候暂停什么时候再开始

andrewrong

Dec 22, 2014

@GeekGao 这个就要看taobao店的反爬机制来定了...哎...好纠结哇...

yakczh

Dec 22, 2014

随机间隔时间爬

tftk

Dec 22, 2014

3s有点慢。

xunyu

Dec 22, 2014

task做好，多任务分布式，单机循环肯定不行的，可以试试rabbitmq

nowgoo

Dec 22, 2014

购买阿里云最低配VPS。

ETiV

Dec 22, 2014

PHP 不知道有没有TCP连接的复用...可以检查一下, 要是每次爬完都close 了socket, 那应该用更底层的方式去做, 能快一些吧

binux

Dec 22, 2014

1. 如何高效的利用我们的代理IP(不是很多)，又不被淘宝封(这个希望能比较详细点)？
想让马跑又不让马吃草。。唯一的办法就是挖掘每个IP的抓取极限，看看多大的速度不会被封。另外一种办法就是找更多的代理。

2. 我们现在这套PHP架构是否合适做这个爬虫，如果不适合，能不能建议一下？
取决于瓶颈在被封，还是处理速度。如果你没有足够的IP，无法提高速度，语言或者架构是无法为你带来提升的。反之，瓶颈不再是怕被封的话。使用异步抓取，多进程解析能进一步提高性能。而 PHP 这么好的语言，我不知道行不行。

3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化，并且做出相应的调整，有人做过这个东西吗？
这东西还是靠更多经验，你就抓一个淘宝，而且没有那么多IP资源让你折腾的话，手动搞一个流量限制就好了。由于抓取延迟长达3秒，细的特征实际上一点用都没有。就是 UA+cookie+每分钟流量控制就完了。

最后广告一下： https://github.com/binux/pyspider 异步，带流量控制，多进程带 WEBUI 的爬虫