写在最前面,欢迎各位大佬来提 PR,也可以来讲自己做爬虫的心得与体会,一些小技巧都可以!可以联系我!
啊!第三次发了,希望你们不要觉得烦,只是想做一些有意义的事情,勿怪!!多谢!!!
增加糗事百科,链家!
如果喜欢的话可以给个 star 谢谢
🌟分享一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,脚本几乎都不太大,很容易上手,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,bilibili 等如果采用 selenium 就相对轻松一些。
虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。
1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至 MongoDB
2. 通过 pandas 进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过 matplotlib 绘图显示
1. 输入要爬取的博主 ID,获取 ajax 请求
2. 解析 json 数据,爬取博主所有微博,保存至 MySQL
知乎登录没有问题,不过要手动输入验证码
知乎登录遇到“ execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”
原因以及解决办法:
1. 由于是你本地的 JScript 引擎只有一个默认的 JScript,所以会造成 json 未定义的错误。
2. execjs 会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个 nodejs 的 V8 引擎就可以了
欢迎大家一起来 pull request 💗
很重要很重,欢迎大家来提 PR
喜欢的记得过来给小弟个 star 支持一下哦!
1
CriseLYJ OP 顶一下下
|
2
Baymaxbowen 2019-03-10 22:44:28 +08:00 via Android
哈哈哈已经 star,现在还看上了 LZ 终端的背景图,能分享吗?
|
3
zxcvsh 2019-03-10 22:45:08 +08:00 via iPhone
手动用户名密码....
|
6
CriseLYJ OP |
8
CriseLYJ OP 好好学习
|
9
CriseLYJ OP 别沉
|
10
Allianzcortex 2019-03-10 23:27:04 +08:00
这是总结+原创吗?
|
11
VanderMark6 2019-03-11 03:54:04 +08:00 via Android
感谢分享
|
12
CriseLYJ OP @VanderMark6 不用谢 哈
|
13
cat9life 2019-03-11 10:16:11 +08:00
这个可以有啊 1024
|
14
Heyavc 2019-03-11 10:27:34 +08:00
Nice Job,模拟登录值得学习,对一些自动化工程很有帮助。
|