懂 Python selenium 的大神进，请教个问题 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3482 天前的主题，其中的信息可能已经有所发展或是发生改变。

Python selenium 的 webdriver 如何可以获取到一个 url get 请求下的所有子资源的请求？比如图片， js,jsoup 之类的；需求是想做爬虫，但有些信息在页面上并不显示，只有在子请求返回的 jsoup 里才有，我要找到这个 jsoup 的 url 请求，然后再单独发起一次 get 即可获取到我想要的数据；不要问为什么不直接 F12 从 network 里抓包找到对应的 http 接口，这个接口带有签名，只有通过 selenium 访问生成签名后，再基于带有签名的 url 去拿数据，这也是为什么要用 selenium 的原因。我目前的思路有两个：

基于 scapy 抓包，找到对应的 url ，再单独发起请求。 2.打开 chrome://net-internals/#events 进行监听找到对应的 url 。这两个方法都比较麻烦，不知道 selenium 有没有自带的接口可以获取到所有 url 的请求， get_log （）　里也没找到。或者说 selenium 如果能直接捕获到子 url 请求的结果也可以，比如某个子请求的 url 返回的 jsoup 。理论上一定是捕获到了的，要不然后无法生成最终页面，只是不知道如何单独提取出来。

8 条回复 • 2016-08-16 00:03:24 +08:00

1

ziXiong

2016 年 8 月 15 日

不太明白为什么要找到 url 后单独发请求。直接通过 selenium 模拟行为，触发你想要的页面加载不可以吗

2

billion

2016 年 8 月 15 日

首先你需要知道那个子请求时怎么触发的，例如屏幕往下滚动，还是点某个按钮。

通过调用 webdriver 接口，或者的直接执行 javascript 来模拟这些触发条件。

3

billzhuang

2016 年 8 月 15 日

有同样的需求，真巧

4

lxy

2016 年 8 月 15 日

找到他生成签名的方式。

5

kukuwhu

OP

2016 年 8 月 15 日

@ziXiong 页面显示的内容不完整，比如 jsoup 里有５个字段，页面中只用了３个，另外两个通过页面无法抓取。

6

kukuwhu

OP

2016 年 8 月 15 日

@billion 并不是通过外部控件触发，而是类似 ajax ，自动发起的。

7

lisztli

2016 年 8 月 15 日

不一定非得跟 selenium 过不去，使用 twisted 或者 tornado 给出的 demo 中的 proxy 的例子，将经过 proxy 的全部流量都写到磁盘上，然后请求结束后，去对应的文件中找你需要的信息去。

8

zeq

2016 年 8 月 16 日 via Android

有个东西叫 splash 能满足你的要求

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 3843 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 25ms · UTC 05:13 · PVG 13:13 · LAX 21:13 · JFK 00:13
♥ Do have faith in what you're doing.