1
wind3110991 2016-04-25 14:03:39 +08:00
你如果连续用同一个 ip 爬肯定要被 ban 掉吧
|
2
hiboshi 2016-04-25 14:07:02 +08:00
很明显被限制了,用 adsl vps 吧
|
3
9hills 2016-04-25 14:10:42 +08:00
用代理池爬,控制速度
|
4
dxwwym 2016-04-25 14:12:13 +08:00 via iPhone
每天数以百万的新评价,能评的过来?
|
5
pubby 2016-04-25 14:22:30 +08:00
降低访问频率!
1. 登录账号,每个账号用一个独立的代理 ip ,控制访问频率(大概 10 秒一次,出现验证码几率会降低) 2. 不登录账号,每个代理 ip 控制访问频率,需要很低频率才行,否则就不是验证码了而是直接让你登录,所以控制访问频率+切换 ip 吧。 |
6
sosozzzx 2016-04-25 15:19:17 +08:00
神箭手云爬虫开放开发者功能啦~
海量规则免费使用, 24 小时云端采集, 舆情监控即时更新,自动同步多个网站, 5 行代码创建专属于你的云爬虫! |
7
odirus 2016-04-25 15:25:09 +08:00 1
selenium ,通过 chromedriver 连接 chrome 浏览器。
解析也面前,代码里面检测是否出现了验证码页面或者弹窗,出现的时候使用 sleep 函数,等待人肉输入验证码,验证码输入完成之后,程序再接着运行。阿里云再神也识别不出你来。 哈哈哈。之前在爬一个 google 验证吗的网站时就这么干的。 |
9
gimp 2016-04-25 15:54:12 +08:00
selenium + 人肉打码
|
11
pubby 2016-04-25 16:28:05 +08:00 1
@hadoop 可以的
一般安装了 rp-pppoe ,没有的话自己装一下 pppoe-setup 设置一下账号密码 ifup ppp0 拨号 重拨换 ip 用 ifdown ppp0 && sleep 5 && ifup ppp0 这些 vps 是这样的: 给你一个管理 ip 和端口,然后 ssh -p <端口> root@管理 IP 连上去 拨号 拨号后 ppp0 上会有动态 ip 然后开个 socks5 或者 http 代理 (可能需要处理一下 iptables 规则) 本地用的时候记得连那个 动态 ip : 代理端口 |
13
fhefh 2016-04-25 16:52:55 +08:00
|
16
odirus 2016-04-25 17:32:57 +08:00
@billion 嗯, selenium 主要是用于爬那些变态页面,例如 新浪微博(大部分 JSONP ),某些采用 google 验证码的网站(既要鼠标点击又要选择里面的文字),好处是能够像普通浏览器一样渲染整个页面,还能通过 chromedriver, firefoxdriver 等连接器连接浏览器,做到一步步地可视化调试,调试完成后再换成 phantomjs 这种无界面浏览器部署在服务器上。
|
18
odirus 2016-04-25 17:44:55 +08:00
@pubby 是这样的。如果通过连接器连接 chrome 、 firefox 的话,是自动打开一个干净的浏览器界面(没有 cookie 、历史纪录等等),你可以在程序里面检测是否有验证码,如果有则程序等待(这个时候可以手动操作浏览器的,你就可以拖动滑块了),通过验证码验证之后的后续的逻辑再让程序自动完成。
如果你爬慢一点,可以登录验证一次,自动执行很多天,过几天检测到验证码界面时自动发短信到手机上嘛。 |
19
pubby 2016-04-25 17:51:08 +08:00
@odirus 嗯,抓取频率高了还是比较麻烦,输验证码会比清 cookie 改 ua ,重新登录频繁。
如果要连续不间断高频次抓取,需要不停输验证码以及重新登录,搞得我都想做个简单 app 带身边随时人工操作介入了 -_- |
20
niceworld 2016-04-25 21:11:35 +08:00
你可以写个下载中间件,每抓个页面就更换一个代理,代理 ip 可以找免费分享的那种,抓个 1 、 2 千个,定时验证下就好了,基本可以用 3-5 天了
|
22
geek123 2016-04-26 09:10:08 +08:00
人工输入验证吗是终极解决办法,自动验证识别率太低。。
|
23
ZnZt 2016-04-26 09:45:57 +08:00
速度慢一点, 去找点代理
|
24
yuriko 2016-04-26 10:01:06 +08:00
你这么玩肯定被干啊……
人家反爬虫工作也不是吃素的啊…… |
25
mapleray 2016-04-26 10:18:38 +08:00
|
26
laodao 2016-06-20 23:30:32 +08:00
@pubby 你好, adsl vps 感觉只能实现本地代理,因为在内网,感觉没法给其他服务器提供代理。不知道这种拨号服务器有办法实现给其他外网服务器提供代理吗?
|