Scrapy 如何爬瀑布流的站点? - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 4016 days ago, the information mentioned may be changed or developed.

RT，Scrapy如何爬瀑布流的站点？

16 replies • 2015-06-07 10:20:24 +08:00

1

est

Jun 5, 2015

我遇到了这个问题，解决办法是自己写。

2

mthli

Jun 5, 2015 via Android

瀑布流有"page="吧，试试找找看看？

3

kisshere

Jun 5, 2015 via Android

抓包，提取网址，实在不会用casperjs吧

4

mahone3297

Jun 5, 2015

@est 自己写是什么意思？

5

nikoukou

Jun 5, 2015

casper.js可以试一试，就是速度比较慢，相当于cli的按键精灵。。

6

rphoho

OP

Jun 5, 2015

@nikoukou
@kisshere
所以只用scrapy是没办法实现的吗，一定要模拟浏览器行为？
有或者有什么爬虫框架适合做这个吗？

7

ericls

Jun 5, 2015

@rphoho 你分析浏览器请求。

8

alexapollo

Jun 5, 2015

上内核做渲染！

9

duobei

Jun 5, 2015

@alexapollo 这个建议不错

10

kisshere

Jun 5, 2015 via Android

@rphoho 刚都说了，叫你chrome F12键抓包，一般如果他的MySQL不是cursor分页的话，可以直接按照pageid递增就抓取了，遇到瀑布流是好事，这样更容易抓取

11

kisshere

Jun 5, 2015 via Android

瀑布流一般都会ajax加载json，更容易抓取和解析

12

allen3921

Jun 5, 2015

直接分析js

13

ChiangDi

Jun 5, 2015

当然是看他的 js 代码，有时候可能爬虫都不要写就是一个 json API

14

alexapollo

Jun 6, 2015

@duobei 其实这是最标准的方法。。应该。。

15

onlyice

Jun 6, 2015

如果不是瀑布流，你会怎么抓？
其实是不是瀑布流跟 scrapy 没什么关系，只跟网站的 HTTP 接口是怎样的有关系。

16

mingyun

Jun 7, 2015

casper.js没用过，有这方面的案例吗

About · Help · Advertise · Blog · API · FAQ · Solana · 4353 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 71ms · UTC 00:16 · PVG 08:16 · LAX 17:16 · JFK 20:16
♥ Do have faith in what you're doing.