上周看到有人在论坛问爬虫懒加载的问题,正好也有朋友在做这个爬虫练习项目, 分享一下,仅供参考,欢迎交流爬虫技术和场景
使用网页自动化的方式,而且使用的是用户浏览器,不易被反扒监测。 数据量不大的话,也无需所分布式,是一个很好的选择哈。
1
i8k 2022-09-11 12:58:25 +08:00
没有把图片按文章目录分类啊
|
2
automation2022 OP @i8k 嗯,这个就比较简单了,拿到 album 的名字,在 picture 下建子目录就可以的
|
3
i8k 2022-09-11 13:03:36 +08:00
@automation2022 好,我自己补一下
|
4
websql 2022-09-11 15:48:16 +08:00
1 、要用 ip 池子,不然很容易被网站屏蔽了爬虫 IP
2 、图片下载失败后,删除本地文件,重新下载图片 |
5
Puteulanus 2022-09-11 16:01:27 +08:00
练习项目更建议手工爬,操作浏览器看起来简单,练到的东西也就少了
|
6
automation2022 OP @websql 嗯,说的对。
数据量不大的话,搞个代理,自动切换代理服务器, 不过没有做这方面的测试 |
7
Dart 2022-09-13 11:24:27 +08:00
厉害!学习到了不少东西
|
8
cy1027 2022-09-13 16:17:58 +08:00
selenium 换代理太麻烦了,我反正只会删除实例再创建一个然后改代理,真想学还是建议研究研究逆向什么的,模拟器还是不太够用
|
9
automation2022 OP @Dart 欢迎多交流
|