如何纯前端实现爬虫

This topic created in 2276 days ago, the information mentioned may be changed or developed.

不通过后端的服务器，相当于用户每次访问网页，在前端爬取数据后，再上传到后端，每次使用用户的 ip 。当然需要告之用户，类似做一个更新最新数据的按钮，用户自己点击，然后再爬取数据。

用户

数据

前端

爬

26 replies • 2020-04-15 23:25:52 +08:00

xiaoxinshiwo

Apr 15, 2020

你说的啥？？？

sun019

Apr 15, 2020

百度爬虫里面有个自动提交的 js 功能，你可以参考下他怎么做的。
他的流程就是用户访问了该网页，然后就把网址提交了。后续爬虫定时再来爬。

lzdyes

Apr 15, 2020

浏览器跨域你的想法就被 kill 了

lshero

Apr 15, 2020

油猴写个脚本就搞定了啊

dcalsky

Apr 15, 2020

浏览器有跨域的限制，不会让你从这个页面发送 http 请求给其他页面的，除非人家开了针对你的 CORS （或者*），或者你 get 到了他的 jsonp 接口（但是没人会给 html 页面开 jsonp 吧）。所以理论上不行，除非你说的前端不是 web，而是其他客户端。

easylee1996

Apr 15, 2020

@xiaoxinshiwo 用前端 js 能不能爬取数据，不使用 python，java 这些

coderluan

Apr 15, 2020

最简单的办法是油猴脚本，比较折中的办法是浏览器插件，这些都能保证爬取的过程都是用户行为，单纯的网页肯定还得你提供服务，严格来说就不能算纯前端了。

hcwhan

Apr 15, 2020 via Android

@easylee1996 不能具体原因请搜索同源策略跨域

unsized

Apr 15, 2020 via iPhone

用油🐵或者浏览器扩展吧

also24

Apr 15, 2020

需要先定义一下『纯前端』指的是什么。

是说你自己搭建一个前端页面，然后去爬其它网站？

还是说你在其它人的页面上执行一段前端脚本（类似油猴、浏览器扩展），来实现对其它网站的抓取？

binbinyouliiii

Apr 15, 2020 via Android

浏览器:”不，你不想”

ic2y

Apr 15, 2020

使用浏览器扩展，是可以的。

一些比价插件，就会通过插件扩展机制，去扫描当前页面的 document，根据不同的网站 url，执行不同的采集策略。

采集到的数据，会通过 http 传送到后端，既能让用户帮助自己辅助数据抓取，也能满足用户更精准的比价需求 [爬当前页的商品基本文案，可以比价推荐类似的产品] 。