RT,Scrapy如何爬瀑布流的站点?
1
est 2015 年 6 月 5 日
我遇到了这个问题,解决办法是自己写。
|
2
mthli 2015 年 6 月 5 日 via Android
瀑布流有"page="吧,试试找找看看?
|
3
kisshere 2015 年 6 月 5 日 via Android
抓包,提取网址,实在不会用casperjs吧
|
4
mahone3297 2015 年 6 月 5 日
@est 自己写是什么意思?
|
5
nikoukou 2015 年 6 月 5 日
casper.js可以试一试,就是速度比较慢,相当于cli的按键精灵。。
|
8
alexapollo 2015 年 6 月 5 日
上内核做渲染!
|
9
duobei 2015 年 6 月 5 日
@alexapollo 这个建议不错
|
10
kisshere 2015 年 6 月 5 日 via Android
@rphoho 刚都说了,叫你chrome F12键抓包,一般如果他的MySQL不是cursor分页的话,可以直接按照pageid递增就抓取了,遇到瀑布流是好事,这样更容易抓取
|
11
kisshere 2015 年 6 月 5 日 via Android
瀑布流一般都会ajax加载json,更容易抓取和解析
|
12
allen3921 2015 年 6 月 5 日
直接分析js
|
13
ChiangDi 2015 年 6 月 5 日
当然是看他的 js 代码,有时候可能爬虫都不要写就是一个 json API
|
14
alexapollo 2015 年 6 月 6 日
@duobei 其实这是最标准的方法。。应该。。
|
15
onlyice 2015 年 6 月 6 日
如果不是瀑布流,你会怎么抓?
其实是不是瀑布流跟 scrapy 没什么关系,只跟网站的 HTTP 接口是怎样的有关系。 |
16
mingyun 2015 年 6 月 7 日
casper.js没用过,有这方面的案例吗
|