关于复杂网站的前端并行爬取方式

爱意满满的作品展示区。

This topic created in 2549 days ago, the information mentioned may be changed or developed.

朋友让我帮忙爬取一些数据，由于目标网站( http://epub.sipo.gov.cn/gjcx.jsp) 采用的防爬虫策略，简单的模拟请求不行，使用 headless browser 简单试了一下，也不行；由于我并不怎么做爬虫这块，想到在前端使用 js 爬取再提交到后端应该是最简单的，于是在浏览器中简单实验之后发现是可行的。

于是写了一个后端服务用于分配任务和收集结果
https://github.com/webee/PatentFetcher
后端提供两个接口给前端爬虫使用：分配任务，提交结果

前端提供一个 user script 执行具体爬取
打开多个标签(注：浏览器有单个 ip 连接数限制)，或多个浏览器, 甚至开不同的机器就可以实现分布式并行前端爬取了。

搞定这个事情之后，就有个想法：
前端爬取其实跟使用 headless browser （ Selenium，PhantomJS 等）原理一样的，都是模拟真实的前端环境，但这里的关键是分散地使用真实的客户端, 利用人们空闲的计算和流量资源，而不是使用自己的服务器。
这可以解决许多复杂爬取面临地很多痛点：ip 限制，人机验证，足够的服务器，爬取速率等

是否可以使这个方法通用化，类似众包的方式，搞一个任务平台，设计不同的执行前端（ pc 客户端，浏览器 user script, app sdk, 专门的 app ），通过给用户付费，或者给开发者任务积分实现互助爬取，以解决一些复杂网站的爬取问题？

我搜索了一下关于前端爬虫的项目，有些是纯独立客户端的前端爬取，有个类似想法的 DSpider，没怎么开发了。

一个人的想法总是有局限的，
欢迎大家讨论一下，这个事儿是否有意义，是否可行？

前端

爬

script

user

9 replies • 2019-07-11 17:30:48 +08:00

ho121

Jul 3, 2019 via Android

买代理不行？

webee

Jul 3, 2019

@ho121 这里主要不是代理的问题，如果能简单的在后端爬取，代理当然可行。
这里的问题是对于复杂的不那么好爬取的网站使用前端爬取，解决各种后端爬取的痛点，同时实现资源共享。

qilishasha

Jul 3, 2019

在某宝有人出售肉鸡 API，便宜得很，不知道是不是有法律风险

silencefent

Jul 4, 2019

流量宝这个软件听说过吗,理论上和你这个差不多一个意思

Fcsle

Jul 4, 2019

@qilishasha 关键词是啥

qilishasha

Jul 4, 2019

@Fcsle 所有的卖代理的都有

webee

Jul 4, 2019

@silencefent 流量宝还是使用自己的的服务器来做刷流量的事情，其实我想的是真实用户共享合作来分享算力和流量，和众包是一个意思。

webee

Jul 4, 2019

@silencefent 不好意思，仔细了解了一下，流量宝，确实也是共享的思想。。

yangweijie

Jul 11, 2019

专利这块爬取是很麻烦的，包括天眼查和 zf 统一信用代码甚至用上了极验验证码。我都奔溃了，然后搞了个和你们思路一样的人肉采集，本来想开发像京价宝这样的插件的，时间未允许，后来就直接书签写动态 js 采集并请求后端更新数据，但是必须协议一致。https 必须也 https。然后老板嫌麻烦买了企查查的接口。