实际情况是这样的 在爬取二级页面的时候,我在浏览器里面发现,每个二级页面都会请求 10 个接口
假如说,我现在不爬取这个二级页面,改为爬虫这个接口,去请求 3 个接口
那么是直接爬取二级页面对服务器压力大?还是直接去请求那三个接口对服务器压力会大一点? 我不太懂原理这块,想了解一下
1
2bNot2b 2020-05-16 11:23:44 +08:00
那肯定是爬页面服务器压大啊
|
3
keepeye 2020-05-16 11:34:59 +08:00
你以什么方式请求二级页面呢?
|
5
jugelizi 2020-05-16 11:40:18 +08:00 via iPhone 1
楼上是问你用 requests 还是 webdriver
|
8
keepeye 2020-05-16 11:48:38 +08:00
@Colorful 如果你的数据要通过接口获取,那么你用 requests 请求二级页面也拿不到数据啊,你只能拿到一个 html 而已,就产生了一次请求,可能还是 cdn 的,对服务器来说肯定是这种情况压力小啊
|
9
2bNot2b 2020-05-16 11:50:53 +08:00
@Colorful 如果是用 webdriver 之类的爬取的话,相当于是打开页面,页面多次请求接口(这个是请求数最多的);如果使用 requests 之类的直接 get 二级页面的话,就只有一次请求;如果你直接用 requests 请求接口 也是只有一次请求
|
11
imn1 2020-05-16 12:15:41 +08:00
肯定应该请求接口,除非你不知道接口的 url (变化的 url ),要从页面解析出来
单纯获取页面得不到数据,还要继续获取接口 但你的问题是问哪个压力大,那就答案相反 |
12
dallaslu 2020-05-16 19:56:13 +08:00
有接口当然用接口啊
|