不知道这个问题是属于爬虫问题还是属于服务器问题？想请教下，爬二级页面的问题

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2268 days ago, the information mentioned may be changed or developed.

实际情况是这样的在爬取二级页面的时候，我在浏览器里面发现，每个二级页面都会请求 10 个接口

假如说，我现在不爬取这个二级页面，改为爬虫这个接口，去请求 3 个接口

那么是直接爬取二级页面对服务器压力大？还是直接去请求那三个接口对服务器压力会大一点？我不太懂原理这块，想了解一下

二级

页面

爬虫

接口

12 replies • 2020-05-16 19:56:13 +08:00

2bNot2b

May 16, 2020

那肯定是爬页面服务器压大啊

Colorful

May 16, 2020

@2bNot2b 你是说直接爬取二级页面？

keepeye

May 16, 2020

你以什么方式请求二级页面呢？

Colorful

May 16, 2020

@keepeye 列表页面里面有 url 直接通过 url 请求

jugelizi

May 16, 2020 via iPhone

楼上是问你用 requests 还是 webdriver

Colorful

May 16, 2020

@jugelizi 用的 scrapy

Colorful

May 16, 2020

@jugelizi requests

keepeye

May 16, 2020

@Colorful 如果你的数据要通过接口获取，那么你用 requests 请求二级页面也拿不到数据啊，你只能拿到一个 html 而已，就产生了一次请求，可能还是 cdn 的，对服务器来说肯定是这种情况压力小啊

2bNot2b

May 16, 2020

@Colorful 如果是用 webdriver 之类的爬取的话，相当于是打开页面，页面多次请求接口（这个是请求数最多的）；如果使用 requests 之类的直接 get 二级页面的话，就只有一次请求；如果你直接用 requests 请求接口也是只有一次请求

Colorful

May 16, 2020

@keepeye
@2bNot2b

理解了，太感谢了

imn1

May 16, 2020

肯定应该请求接口，除非你不知道接口的 url （变化的 url ），要从页面解析出来
单纯获取页面得不到数据，还要继续获取接口

但你的问题是问哪个压力大，那就答案相反

dallaslu

May 16, 2020

有接口当然用接口啊