分析了好久,之后的请求都有用到这个最原始的页面上定议的这几个变量的值。
查看请求顺序,这个页面是第一个。
是否这个页面是后台渲染的。
这种页面有几千个,不可能是事先做好的吧。
如果是后台渲染的,那是不是就无法抓到这些值了。
求大佬们解惑。。。
另:这网站真是绝。。。。最关键的几个数据,居然是这样写在源码里的~~~~大写的服
1
qiayue 2018-03-02 00:53:14 +08:00
直接写在了 html 里不是最容易获取数据的方式之一吗?
|
2
geelaw 2018-03-02 01:14:52 +08:00 via iPhone
你只要关掉 JavaScript 就可以看出来它是不是 JavaScript 运行才会有的了
|
4
jakeyfly OP @qiayue 因为要有几千个,那就变成要先爬这个页面,正则把这一段搞下来。再清洗,或者用 JS 包跑一下把值取出来,会多好多访问,难度 会加大好大,对稳定的爬取难度变高了
|
6
geelaw 2018-03-02 01:26:42 +08:00 via iPhone
@jakeyfly #5 那不就是说明传送到客户端的时候就有这些内容么?
以及你可以用 headless Chrome 或者是 IE COM 来让网页处于浏览器里面,这样你就可以获取到和真实用户完全一样的感受,那些东西到底是怎么出来的都没关系,都可以拿到。 |
7
jakeyfly OP @geelaw 您说的是无端浏览器吗,我尽量少用那个东西,会有依赖感 ,我一般分析请求直接获取数据。那大佬,那这样的情况是否就像,django 的 views 渲染的模板一样,显示出来的时候就带有了? 是无法通过分析请求取得这个值的吧。那只能先抓页面,节取要的值,构造请求 URL 这一条路啦
|
8
hanzichi 2018-03-02 11:17:37 +08:00
查看 html 源码,如果有就是后端渲染的,这样不行?
为什么后端渲染的就不能爬了?直接分析不就行了 |