除了用 selenium 模拟外,其他还有好的办法吗?
除了用 selenium 模拟外,其他还有好的办法吗?
1
sunwei0325 Apr 18, 2018
selenium 一般用来爬一些 js 搞上去的内容, 而不是解决爬虫被屏蔽的, 解决被屏蔽的方法一般是代理 ip 池, cookie 池, 随机 user-agent 等
|
2
lixuda OP @sunwei0325 ip 没有封,user-agent 随机无效,只能打开浏览器访问就可以。
|
3
leir Apr 18, 2018 via iPhone
什么网站?
|
4
lixuda OP @leir 多 requests 几次 就被认为是爬虫,浏览器是正常的。http://www.ledsmagazine.com/articles/2018/04/lrc-s-mark-rea-will-lead-ul-circadian-lighting-task-group.html
|
5
est Apr 18, 2018
技术不过关啊。。。。
|
7
huweic Apr 18, 2018 via Android
该有的 Header 都加上
|
8
kimchan Apr 18, 2018
mark, 之前也是遇过一个网站, 用爬虫各种伪装了都不行, 用浏览器访问却可以. 最后也是只能用 selenium😂😂. 看看大神们有什么更好的方法
|
10
magicO Apr 18, 2018 via Android
抓包看看浏览器访问时的包
|
11
alen Apr 18, 2018
限速控制并发
|
12
takato Apr 18, 2018
把并发间隔整形成高斯分布试试。
|
13
wqzjk393 Apr 18, 2018 via iPhone
顺便问一下,像斗鱼这种第一次爬就直接屏蔽掉,返回 404 的,该怎么处理?
|
15
em70 Apr 18, 2018
说明伪装得不像,一般防盗链就 user-agent 和 referer 两个参数来判断,这两个都不填,傻子都知道你是机器人
|
17
wplct Apr 18, 2018
并不是学艺不精,看来一下这个网址的反爬确实很严格
|
18
wplct Apr 18, 2018
各种加载 js 运行,懒得搞的话还是调用浏览器吧
|
19
wplct Apr 18, 2018
如果是要请求较多的数据的话,记得保存 cookies 会比较好一些
|
20
vtwoextb Apr 18, 2018
重启路由器 更换家里的动态 ip https://github.com/hizdm/dynamic_ip
|
21
JackYao Apr 18, 2018
估计 js 检测吧, 能执行才是浏览器。
|
22
summerwar Apr 18, 2018
贴地址 不然靠猜吗
|
23
craftx Apr 18, 2018
请先说明是哪种方式的屏蔽
|
24
jamesfuxk Apr 18, 2018
用抓包软件,设置好 header 啊。可以减少被封的概率的
|
25
cuberlzy Apr 18, 2018 |
26
cuberlzy Apr 18, 2018
浏览器也想被提示爬虫可以试试把 Cookie 清掉 这样多半就会提示你输验证码啦
|
28
Leigg Apr 18, 2018
UA 是比较基本的反爬,最好清除浏览器 cookie,打开 F12-network,再打开网站,这个时候分析一下请求的 method、header 一般就能找到关键所在
|
29
Leigg Apr 18, 2018
你是要抓这个 URL 中的什么信息,中间的正文应该是可以直接获取的
|
30
golmic Apr 18, 2018 via Android
浏览器可以,requests 就一定可以。愿意付费可以联系我,微信公众号 pydatame 有联系方式
|
31
qqpkat2 Apr 19, 2018
js 加密检测,了解一下
|
32
jimmyczm Apr 19, 2018
抓包时发现应该是这个 pwhqfbsrcqtcbabfzrvevcde.js 文件作怪,在这个文件后面浏览器和 selenium 的内容变了
|
33
soho176 Apr 23, 2018
用火车头试试看!
|