Python selenium 的 webdriver 如何可以获取到一个 url get 请求下的所有子资源的请求?比如图片, js,jsoup 之类的; 需求是想做爬虫,但有些信息在页面上并不显示,只有在子请求返回的 jsoup 里才有,我要找到这个 jsoup 的 url 请求,然后再单独发起一次 get 即可获取到我想要的数据;不要问为什么不直接 F12 从 network 里抓包找到对应的 http 接口,这个接口带有签名,只有通过 selenium 访问生成签名后,再基于带有签名的 url 去拿数据,这也是为什么要用 selenium 的原因。 我目前的思路有两个:
1
ziXiong 2016-08-15 13:13:25 +08:00
不太明白为什么要找到 url 后单独发请求。 直接通过 selenium 模拟行为,触发你想要的页面加载不可以吗
|
2
billion 2016-08-15 13:16:51 +08:00
首先你需要知道那个子请求时怎么触发的,例如屏幕往下滚动,还是点某个按钮。
通过调用 webdriver 接口,或者的直接执行 javascript 来模拟这些触发条件。 |
3
billzhuang 2016-08-15 13:46:22 +08:00
有同样的需求,真巧
|
4
lxy 2016-08-15 13:52:55 +08:00
找到他生成签名的方式。
|
7
lisztli 2016-08-15 18:47:34 +08:00
不一定非得跟 selenium 过不去,使用 twisted 或者 tornado 给出的 demo 中的 proxy 的例子,将经过 proxy 的全部流量都写到磁盘上,然后请求结束后,去对应的文件中找你需要的信息去。
|
8
zeq 2016-08-16 00:03:24 +08:00 via Android
有个东西叫 splash 能满足你的要求
|