爬虫：本人初级程序员，找个高人教/帮我写几个爬虫，有偿

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3085 days ago, the information mentioned may be changed or developed.

本人初级程序员，技术有点水

现在用 nodejs 写个小网站，需要用到爬虫，奈何水平不行，搞不定。

其实这个数据量很小，每个网站就一个网页，但问题是，这些网页的数据都全是 ajax 请求或者各种交互加载的，那我就搞不定了。切盼高人教我。

有兴趣的高人可以联系我 QQ 6-9-3-6-9-1-1-7-9

因为我也是程序员，会按照市场价来，不压价。

只有一个要求：用 nodejs 写。

Supplement 1 · Dec 27, 2017

对了，某些情况下还要爬 app

程序员

爬虫

Nodejs

切盼

17 replies • 2017-12-27 14:45:33 +08:00

hackxing

Dec 27, 2017

楼主给力推荐一个基于 webkit 内核的无头浏览器 phantomjs，自己动手吧。

joshua7v

Dec 27, 2017 via Android

puppeteer nightmare chromeless

aino

Dec 27, 2017

我选择用浏览器插件实现，入侵式爬取

RainFinder

Dec 27, 2017

楼上说的很对，使用浏览器模拟访问，等完全加载完了就可以爬了

Nioty

Dec 27, 2017 via Android

@hackxing 也可以用 Chrome Headless

anasplrt34

Dec 27, 2017

用 nodejs 啊这东西真不适合爬信息异步转同步折腾死你 ww

billows

Dec 27, 2017

@RainFinder
@aino

这种入侵式爬取，会要求用户安装插件才行吧？

keepfun

Dec 27, 2017

casperjs 你值得拥有。

Arrowing

Dec 27, 2017

用 puppeteer 吧，phantomjs 的升级版

vipper

Dec 27, 2017

可以用 Python 爬吗

ivechan

Dec 27, 2017

ajax 请求的一般更好爬, 这种都有 api, 数据格式更好, 直接拿出 chrome f12
看 ajax 访问的 api 是什么就 ok

myself659

Dec 27, 2017

@Arrowing puppeteer 看上去不错

oyosc

Dec 27, 2017

app 直接抓包找到你所需要的接口，然后用正则爬取你所需要的数据

Telegram

Dec 27, 2017 via iPhone

@ivechan #11 对,api 返回的数据最干净

599316527

Dec 27, 2017

@Nioty hhh 正好刚刚撸了一个 https://github.com/599316527/NakeYouku

599316527

Dec 27, 2017

@anasplrt34 Promise, await/async 写起来爽着呢

599316527

Dec 27, 2017

Chrome 调试工具里看网络请求，然后自己拼参数就行了，顶多带上 cookie, useragent，没做反爬的这样就能抓了。做了反爬的用 chrome headless 方便些，自己分析反爬的策略有点累。