遇到一个模拟用户浏览行为的需求,今天研究了一下 ghost.py ,似乎可以做到,但是不太完美。
看了一下目标页 network ,有时长统计,就是每隔几秒调用一次 jsonp 请求一个接口。还有一些用户行为检测,比如正常用户的点击量和页面访问时长和 pv,uv 的比值等等。
这样看来至少必须要支持 js 解析。一些简单的爬虫就不行了。直接用浏览器+脚本控制又太重。
问题来了,有没有更好的办法或者库可以用来写个类似爬虫的程序模拟用户的浏览行为。又可以支持js等的正常解析。
1
bdbai 2016-08-12 18:23:23 +08:00 via Android 1
PhantomJS!
关键词 headless browser |
2
RangerWolf 2016-08-12 18:25:51 +08:00 1
selenium
|
3
tms OP @RangerWolf selenium 我看了。似乎还没有 ghost.js 好用。
|
5
RangerWolf 2016-08-12 22:38:29 +08:00
@tms 真的吗? 我只用过 selenium~ 我来试试看 ghost.js
|
6
tms OP @RangerWolf 额。是 ghost.py 。手误了。
|