本人初级程序员,技术有点水
现在用 nodejs 写个小网站,需要用到爬虫,奈何水平不行,搞不定。
其实这个数据量很小,每个网站就一个网页,但问题是,这些网页的数据都全是 ajax 请求或者各种交互加载的,那我就搞不定了。切盼高人教我。
有兴趣的高人可以联系我 QQ 6-9-3-6-9-1-1-7-9
因为我也是程序员,会按照市场价来,不压价。
只有一个要求:用 nodejs 写。
1
hackxing 2017-12-27 08:46:38 +08:00
楼主给力推荐一个基于 webkit 内核的无头浏览器 phantomjs,自己动手吧。
|
2
joshua7v 2017-12-27 08:53:34 +08:00 via Android
puppeteer nightmare chromeless
|
3
aino 2017-12-27 09:15:23 +08:00
我选择用浏览器插件实现,入侵式爬取
|
4
RainFinder 2017-12-27 09:38:43 +08:00
楼上说的很对,使用浏览器模拟访问,等完全加载完了就可以爬了
|
6
anasplrt34 2017-12-27 09:57:18 +08:00
用 nodejs 啊 这东西真不适合爬信息 异步转同步折腾死你 ww
|
7
billows 2017-12-27 09:58:15 +08:00
|
8
fenglangjuxu 2017-12-27 10:02:21 +08:00
casperjs 你值得拥有。
|
9
Arrowing 2017-12-27 10:31:29 +08:00
用 puppeteer 吧,phantomjs 的升级版
|
10
vipper 2017-12-27 11:05:49 +08:00
可以用 Python 爬吗
|
11
ivechan 2017-12-27 12:51:39 +08:00
ajax 请求的一般更好爬, 这种都有 api, 数据格式更好, 直接拿出 chrome f12
看 ajax 访问的 api 是什么就 ok |
13
oyosc 2017-12-27 14:18:54 +08:00
app 直接抓包找到你所需要的接口,然后用正则爬取你所需要的数据
|
15
599316527 2017-12-27 14:42:54 +08:00
@Nioty hhh 正好刚刚撸了一个 https://github.com/599316527/NakeYouku
|
16
599316527 2017-12-27 14:43:31 +08:00
@anasplrt34 Promise, await/async 写起来爽着呢
|
17
599316527 2017-12-27 14:45:33 +08:00
Chrome 调试工具里看网络请求,然后自己拼参数就行了,顶多带上 cookie, useragent,没做反爬的这样就能抓了。做了反爬的用 chrome headless 方便些,自己分析反爬的策略有点累。
|