1
SlipStupig 2021-05-27 10:30:34 +08:00
先从学习《网络安全法》学起,这不是开玩笑,我是认真的
|
2
murmur 2021-05-27 10:32:04 +08:00
爬虫简单,反爬攻破难,需要经验,那都是别人吃饭的东西怎么可能随便分享给你,你上来就想挑战淘宝
|
5
herozzm 2021-05-27 10:55:12 +08:00 via Android
一来就调整高难题目,先爬爬小网站吧,无非就是验证码破解,ip 限制,前端加密等等
|
6
chennuo 2021-05-27 11:09:22 +08:00
真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
|
7
Lemeng 2021-05-27 11:12:00 +08:00
淘宝是非常钢的。建议参考上面大神的建议
|
8
mschultz 2021-05-27 11:14:14 +08:00 via iPhone
阿里系的很多网页(淘宝、高德地图)正常人类正常浏览都有困难吧(休息会儿呗,坐下来喝口水,我们马上回来)
|
9
palexu 2021-05-27 11:22:43 +08:00
一上来就挑战电商网站。。。 这种大电商都养着一整个专业反爬虫团队呢
|
10
Jwyt 2021-05-27 11:26:34 +08:00
哪有一上来就用自动化测试的东西弄爬虫的?
建议先去看看 http 协议,python 的话先多用 urllib 和 requests 获取数据之后是清洗数据,看看 html 解析、xml 、正则 上面的用的差不多了,学习下爬虫框架,scrapy 、pyspider 再深入的话就是反反爬和大规模爬虫性能这块了,包括 js 反解、app 抓包、逆向。。 |
11
tuoov 2021-05-27 11:39:16 +08:00
《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程,不过现在高级点的爬虫基本上都靠逆向和抓包,更多是偏实践的东西
|
12
Numbcoder 2021-05-27 11:42:48 +08:00 1
爬虫写的好,牢饭吃到老
|
13
byte10 2021-05-27 11:49:37 +08:00
爬虫其实很简单的啦,如果高频的去爬就很难。你要先搞定账号,IP,这些搞定之后,去重写一个 开源的浏览器,然后把 GUI 那层 css 渲染去掉,基本就完美的爬了。
|
14
shuxhan 2021-05-27 11:49:40 +08:00
从入门到入牢
|
15
ysmood 2021-05-27 12:44:51 +08:00 via Android
只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/
|
16
imn1 2021-05-27 13:10:15 +08:00
没事,就三个步骤:抓页面,分析代码,保存(或下载文件)
只是 2 用 python 比较省心,多年以前用 php 就一个编码都弄得头疼 1/3 其实跟 python 没啥关系(哪个顺手都可以),我更多用 wget/aria2 以前爬过几千万张图片(累计),可能上亿,现在没啥动力爬了,另一方面是封闭了,有帐号都不给看,更别说没帐号了 最后,一开始就刷大厂,你真以为所见即所得啊,爬虫练手最好先找外面的,例如岛国(顺便学一下编码问题) |
18
imn1 2021-05-27 14:21:37 +08:00
@buffzty #17
我不知道你这么激动是为什么 我说的编码指的是,gbk/big5/shift-jis/enc-k/utf8 这些,不是写代码 php5.3 前在 windows 处理 unicode 是痛点,特别是非 ASCII 路径,5.3 后就没写过了,“多年前”指的是这个 我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料,不过没空整理,都送人了 我没任何歧视 php 的意思,我是因为发现 python 处理韩文 windows 路径很方便,才转过去的 |
19
zhengfan2016 2021-05-27 14:28:13 +08:00
上来就是搞淘宝,你当淘宝那些 985,211,硕士都是纸糊的吗。你觉得你一人能搞得过人家几万人的团队?
|
20
x86 2021-05-27 14:48:15 +08:00
这是一上来就挑战最高难度的...
|
21
tsuih 2021-05-27 15:01:49 +08:00 via Android
秒杀建议写浏览器插件跑
|
22
0044200420 2021-05-27 15:46:15 +08:00
爬虫写得好 牢饭吃得早
|
23
Yeen 2021-05-27 15:54:02 +08:00
爬虫主要就是在反抓取和反反抓取的轮回里醉生梦死
|
24
zjsxwc 2021-05-27 15:55:26 +08:00
爬大众点评试试
|
25
7075 2021-05-27 15:59:38 +08:00
爬虫这东西,如果做好了,来钱很快。但是做好很不容易。上帝是公平的。
|
26
lopetver 2021-05-27 16:01:29 +08:00
崔庆才的博客是个好地方
|
27
cdlnls 2021-05-27 21:15:01 +08:00
爬虫说简单也简单,说难也难。简单的模拟接口请求数据就行了,难的就有一堆东西,JS 要熟悉、人机验证、代理调度、数据清洗储存、逆向,还有性能,这里哪一块都能深入。
|
28
godblessumilk 2021-05-28 02:06:06 +08:00 via Android
秒杀可以写浏览器油猴插件脚本啊,爬虫正面刚,估计不可
|
29
zror OP @godblessumilk 油猴我写了,但那个店铺的商品是不定时上架的,不是正常套路的秒杀。用油猴刷不出来商品上架了
|
30
zone10 2021-05-28 14:24:45 +08:00
爬虫学点简单的确实有意思, 爬爬盗版小说, 小电影之类的. 如果是全职的话我是来劝退的, 一来容易入狱不说, 二来和反爬的不断内卷死磕, 相互加大对方的工作难度, 想想何必呢, 程序员何苦为难程序员
|
31
ritaswc 2021-05-28 17:36:35 +08:00
真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
|
32
DeWjjj 2021-05-28 22:27:01 +08:00
反扒其实是个体力活,每次要解决不同程度的数据欺骗和数据混淆。
|
33
ch2 2021-05-29 09:47:57 +08:00
爬虫最难的就是反制,反制没有系统的学习方法,你必须至少达到跟对面同等的技术水平才能有效解决对方的反制,但是你那么牛逼的话干啥都比干爬虫强
|