爬虫求指点 - V2EX

You need to sign in to view this topic

This topic created in 3544 days ago, the information mentioned may be changed or developed.

想要抓取 http://www.chuangtzui.com 网站内容但是该网站是异步加载内容，用了 phantomjs 爬内容

爬到内容不是真正的 html 内容，求大神指点，谢谢

5 replies • 2016-10-24 18:02:12 +08:00

Allianzcortex

Oct 22, 2016

换个思路，看开发者工具，真正请求的是这个： https://static.wixstatic.com/sites/f805a4_22568e3e95cd9a7c9f694d08ed119154_227.json.z?v=3 ,所以用 requests 去 get 这个 url 去取。如果你是用 selenium + PhantomJs 来做的话设置等待时间再长一点会不会好些？

coreki

Oct 22, 2016 via iPhone

先找到 ajax 的请求地震然后

herozzm

Oct 22, 2016 via Android

打开 chrome 的调试器，你可以看到 ajax 请求的真正地址，去抓这个

douglas1997

Oct 23, 2016

这网站的前端怎么实现的? 很漂亮啊。

rabbgit

Oct 24, 2016

网站数据没加密,提取源码里面的 JSON,再进一步解析就行.