因为之前写了一些小爬虫,管理代理池一直是一个很麻烦的事情。所以就写了一个小东西。来帮助自己管理代理池,自动更换出口代理 IP 。
目前已经实现的功能有:
1 、标准的 HTTP 代理 Basic Auth
2 、利用 HTTP header 来区分进程,即一台服务器上有多个 fetcher 进程将分配多个出口 IP
3 、对于同一个进程,按照不同的请求域名进行分流,即一个 fetcher 也有可能会分得多个 IP
4 、状态监控,对于返回 403 , 500 的请求直接更换出口 IP
5 、简单的,基于正则的结果验证,用户可以检测“请输入验证码”,“稍后再试等情况”
6 、目前支持 GET, POST, PUT, DELETE 方法
正在准备支持的功能:
1 、增加 Web 管理界面
2 、增加 HTTPS 支持,目前不支持 connect 方法
3 、为部分网站增加缓存
简单来说,这就是一个代理服务,与常规代理不同的是,我可以为一台机器分配更多的出口,极限情况为:一台机器的 fetcher 进程数 n ,抓取的网站数量 m ,出口数量 p = n*m
有人对这个东西有兴趣吗?如果做成一个平台,你希望得到什么样的服务,以及你愿意为这个服务支付多少费用呢?
目前已经实现的功能有:
1 、标准的 HTTP 代理 Basic Auth
2 、利用 HTTP header 来区分进程,即一台服务器上有多个 fetcher 进程将分配多个出口 IP
3 、对于同一个进程,按照不同的请求域名进行分流,即一个 fetcher 也有可能会分得多个 IP
4 、状态监控,对于返回 403 , 500 的请求直接更换出口 IP
5 、简单的,基于正则的结果验证,用户可以检测“请输入验证码”,“稍后再试等情况”
6 、目前支持 GET, POST, PUT, DELETE 方法
正在准备支持的功能:
1 、增加 Web 管理界面
2 、增加 HTTPS 支持,目前不支持 connect 方法
3 、为部分网站增加缓存
简单来说,这就是一个代理服务,与常规代理不同的是,我可以为一台机器分配更多的出口,极限情况为:一台机器的 fetcher 进程数 n ,抓取的网站数量 m ,出口数量 p = n*m
有人对这个东西有兴趣吗?如果做成一个平台,你希望得到什么样的服务,以及你愿意为这个服务支付多少费用呢?