这篇文章没有代码,请放心阅读(送书活动在末尾)。
多年以后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和 S 君相见的那个遥远的下午。那时的 B 公司,还是一个仅有 6 个人的小团队,Mac 和显示器在桌上依次排开,大家坐在一起,不需要称呼姓名,转过脸去,对方就知道你在和他说话。一切看起来都那么美好,我们所有人,都希望自己和这个公司能够一起成长。
彼时 S 君刚从加拿大回来,老板把他介绍给我们,于是 S 君作为数据产品经理跟我有了项目上的接触。
创业公司里面,每一个人都需要会很多的技艺,于是 S 君开始自学 Python。
有一天,S 君问我:“你玩 MineCraft 吗?“
“玩,但我更喜欢在 B 站上看别人的世界。”我答道。
“我觉得我现在写程序,像是在玩我的世界。” S 君笑着说道。
“是不是觉得你已经掌握了 Python 的基本语法,看着别人把 Python 用的溜溜转,而你自己却不知道用它来做什么?”
“是这样的,你懂我。”
“那你学一门杂学吧。”
于是 S 君被我诱拐过来跟我一起写爬虫。
后来,S 君离开了 B 公司。
三个月后,我也离开了。
从此,我们再也没有见过。
有一天,S 君兴冲冲地跑来跟我说:“我体会到三峡大坝的伟大功能了!”
“你是爬虫工程师还是水利工程师?”
“你知道吗,不管上游的水势多么凶猛,从大坝出来以后总是安全而稳定。” S 君并没有回答我的问题,而是自顾自地说道。
“原来你开始用 Kafka。不错,孺子可教。”
S 君吐了一下舌头:“还是师傅教导有方。”
前不久,S 君的爬虫刚刚达到了日产数据千万条的目标。然而他只高兴了一天。因为他发现,数据写到数据库以后,读起来很麻烦。
S 君有多个数据分析的系统需要从数据库里面读取爬虫爬好的数据,但是从每天千万量级的数据中寻找特定的数据是一个很慢的过程。如果程序遇到异常导致崩溃,又得从头开始读。
S 君问我:“现在我每一个数据分析的脚本都要从数据库里面读一次数据,做了太多重复的工作,单机单节点的数据库快要撑不住了。我是不是要去学习分库分表搭建集群啊?”
我告诉 S 君:“这个后面你自然是需要去做的。但现在,你可以先试一试 Kafka,我已经搭建好了一个 Kafka 的集群了,你这样使用……”。
后来,S 君让所有爬虫把爬到的数据到直接送进了 Kafka,然后再从 Kafka 里面读数据出来,一个 Group 用来备份原始数据,一份 Group 用来生成中间表,一份 Group 用来监控报警,一份 Group 用来绘制 DashBoard。无论爬虫塞给 Kafka 的数据有多少,有多快,从 Kafka 读数据的地方都能按照自己的节奏来消费和使用。
S 君是一个老实孩子。
在开发一个爬虫的过程中,网站接口返回给他的数据看起来是 JSON 格式,于是他就用 Python 自带的 JSON 库去解析。结果解析失败了。因为这些所谓的看起来像 JSON 的东西,竟然没有双引号。
难道是 JSON 的超集? S 君一通搜索,发现用 YMAL 库也许可以解析这种数据。于是安装 YMAL 库,一解析又报错。
难道这些数据直接就是 Python 的字典?于是 S 君用上了邪恶的 eval。又报错,因为里面有 null 和小写的 true。
“你为什么不试一试直接用正则表达式呢?”我对 S 君说。
“靠!” S 君一拍桌子,旁边的老板吓得把搪瓷杯子里面的快乐水洒在了白衬衣上。
然后 S 君用正则表达式花了 10 秒钟结束了战斗。
S 君在加拿大留学时学的专业是金融数学和统计。所以他对数据分析也很有兴趣。在他爬虫收集的数据够用以后,我跟他讲了如何使用 Pandas 来分析数据。
S 君把他分析的酒店价格变化数据给分享给了我们。不愧是金融+数学+统计学背景的高级知识分子 + 超级强大的 Pandas + 超级好用的 Jupyter。这份数据不仅完美再现了过去一年的价格走势,还预测了未来的任何变化,多达四十六张图表似乎穷尽了所有的组合。
“我现在能体会那些半路拦截纸条的人是什么心态了。”这是 S 君第一次使用 Charles 时对我说的话。
从此以后,我很少看到 S 君分析网页了。因为他学会了在爬虫开发的过程中,首先通过中间人攻击技术分析微信小程序和手机 App。这种方式往往能够直接获得数据,拿到数据以后就能直接储存,再也不用写烦人的 XPath 或者长的跟表情符号一样的正则表达式了。
有一天,我在玩一个网页版的黑客解密游戏,在网页上寻找某个地方隐藏起来的密码,然后输入每一关的回答框中,答对才能进入下一关。
游戏有 12 关,而我卡在了第 6 关。只见 S 君拿着电脑走到我面前,指着第 12 关的通关页面跟我炫耀。
“你是不是用 MITMProxy 替换了这个网站的 Js 文件?”
“果然还是瞒不过师傅你啊。”
“你拦截了别人的纸条,做了修改,然后又叠好继续传下去,你有考虑过发纸条的人和收纸条的人的感受吗?”
“我小学时候不传纸条,都是妹子直接约我的。”
“前端没有秘密”。S 君在成功逆向了一个网站的 Js 文件以后如是对我说。
“那是因为这个网站的 Js 代码就赤裸裸地放在你面前,完全没有混淆。”我对 S 君说道。
“不怕,我可以用 Node.js 来运行混淆过的代码。我已经搭建好 Node.js 服务了,只要把 Js 代码传进去,他就会把结果给我返回回来。” S 君对此似乎一脸自行。
“你什么时候学会的 Node.js ?”
“这不是师傅你说过技多不压身吗?既然做爬虫需要动 JavaScript,那我顺手就把 Node.js 给学了。” S 君毫不畏惧的表情,似乎证明他已经猜透了我要问什么。
“那如果目标没有网站,只有 App 呢?”
“不怕,Android 逆向工程我也顺便研究了一点。Java 我也看得懂。”
“看来这些已经不需要我再教你了。”
去年年底的直播答题着实火了一把。那个时候,我和 S 君分开已经有一段时间了。我相信,在全民答题的每一个夜晚,S 君的电脑上一定连着不少于六台安卓手机。这些手机运行着不同的答题平台,能够自动读取屏幕上的问题并自动选择答案。
我把安卓自动化测试技术教给 S 君,本来是让他结合爬虫,实现群控从而抓取一些难以处理的数据,但我相信他肯定会用来答题。
变通,这一点他学的越来越好了。
只希望他不要成为羊毛党。
后来,我再也没有见过 S 君这样有趣的人。所以我把我和 S 君的故事写成了一本书:《 Python 爬虫开发 从入门到实战》,现在已在京东,当当与亚马逊上架。
相信我一次,这本书真的不是从入门到放弃系列。
爬虫是一门杂学。因为在一个完整的开发过程中,需要涉及到的知识可以包括但不限于:Python,HTML,JavaScript,正则表达式,XPath,数据库,Redis,消息队列,Docker,ELK,Hadoop,数据分析,ETL,中间人攻击,自动化测试技术,可视化……
这其中的任何一项,在一个大公司里面都可以让很多人来做。
就像这篇文章里面反复出现的一个词:变通。
只要能够获得数据,任何技术都可以使用。所谓草木竹石皆可为剑。
爬虫开发,绝对不仅仅是 Scrapy,PySpider,requests 这些框架或者库的使用。所以在这本书里面,我也刻意减少了框架使用说明的部分,而把重点放在了各种突破反爬虫机制或者使用变通的方法绕过反爬虫机制的方法论和实践中。
通过学习爬虫,你最后不一定选择爬虫工程师这个岗位,但是在学习爬虫的过程中,你将会接触到的各种工具,方法,服务组件,都会在你以后的生活和工作中帮到你,让你知道,在遇到一个问题的时候,解决方法在哪个地方。
感谢你读到了这一行,希望我这篇蹩脚的软文没有让你觉得讨厌。新书上架,回馈 V 友。我将会从所有留言的 V 友中选中 6 人,一人赠送一本《 Python 爬虫开发 从入门到实战》。
按照惯例,选人的方式如下:
抽奖所用的数据,见图中红框框住的这一列。
开奖啦开奖啦!
收盘价如图:
抽奖代码如下:
恭喜以下六位中奖。
@Dv @cosmo @ycgk @zerOlike @Mrxiaoxie @wobushizhangsan
其中576号是我自己。所以顺延给577号。
请中奖的同时,使用base64编码自己的邮箱回复到本帖并@我。我会使用Y29udGFjdEBraW5nbmFtZS5pbmZvCg== 对应的邮箱给各位发送邮件确认领奖事宜。
我创建了本书的读者交流群,如果大家对本书有什么期待或者疑问, 可以在群里面进行交流。
加群方法:
添加微信公众号
回复:读者交流
501
spemoon 2018-09-27 20:58:52 +08:00
厉害厉害
|
502
davidf 2018-09-27 21:00:49 +08:00
厉害了。等开奖
|
503
luckyswag 2018-09-27 21:00:57 +08:00
为拉低中奖率不折手段 1️⃣
|
504
luckyswag 2018-09-27 21:01:06 +08:00
为拉低中奖率不折手段 2️⃣
|
505
luckyswag 2018-09-27 21:01:14 +08:00
为拉低中奖率不折手段 3️⃣
|
506
solomensec 2018-09-27 21:05:34 +08:00 via iPhone
正想买这种类型的书呢?就看 v 友有看过的吗
|
507
solomensec 2018-09-27 21:07:20 +08:00 via iPhone
再来一波,拉低中奖率
|
508
CloudnuY 2018-09-27 21:07:33 +08:00
瞎学点试试
|
509
AntonChen 2018-09-27 21:20:04 +08:00 via Android
分母,顺便说一句,爬虫书也可以称之为《从入门到入狱》了。
|
510
jerny 2018-09-27 21:27:47 +08:00
Python 爬虫开发 从入门到实战
|
511
bonfy 2018-09-27 21:36:43 +08:00
分母吧 反正没中过奖
|
513
art2cat 2018-09-27 21:37:59 +08:00
分母+1
|
514
mosliu 2018-09-27 21:38:27 +08:00
拉低中奖率
|
515
vast0906 2018-09-27 21:47:33 +08:00
想做分子~~~
|
516
Heier 2018-09-27 21:47:45 +08:00 via Android
支持支持!
|
517
likuku 2018-09-27 21:56:16 +08:00
说不定就中一本了呢...
|
518
wxkvEX 2018-09-27 21:56:42 +08:00
看到你们这么热情,我一句话不说也不好。
|
519
suxiaoxiann 2018-09-27 22:02:28 +08:00
好吧,我也来做分母。
|
520
reticentfat 2018-09-27 22:09:06 +08:00
分母+1
|
521
mingyun 2018-09-27 22:15:35 +08:00
这抽奖算法厉害了
|
522
itskingname OP 这篇文章说讲到的内容,不及书中内容之万一。希望搭建都能以这本书为一个起点,找到自己的方向。
|
523
smallseven 2018-09-27 22:49:28 +08:00
软文很有趣,抽奖方式很厉害,就看书了,抽中!
|
524
ylcx123 2018-09-27 22:59:17 +08:00
分母+1
|
525
lokya 2018-09-27 23:05:27 +08:00
坐等开奖
|
526
csy123 2018-09-27 23:05:30 +08:00 via iPhone
占个楼
|
527
wlh233 2018-09-27 23:08:42 +08:00
哇又有抽奖了
|
528
Vzx01 2018-09-27 23:10:54 +08:00
分母+1
|
529
punk2sang 2018-09-27 23:22:08 +08:00 via iPhone
占楼
|
530
isnowify 2018-09-27 23:25:21 +08:00 via Android
分母
|
531
Mark24 2018-09-27 23:30:19 +08:00
拉低中奖率
|
532
sosloop 2018-09-27 23:30:37 +08:00 via Android
占楼抽奖,啦啦啦
|
533
zhijiansha 2018-09-27 23:47:44 +08:00 via iPhone
分母分母
|
534
axxbin 2018-09-27 23:55:50 +08:00 via Android
支持
|
535
saturnisbig 2018-09-28 00:09:38 +08:00
支持
|
536
doctorwei 2018-09-28 00:10:15 +08:00 via iPhone
做个虫师
|
537
suyeH 2018-09-28 00:10:56 +08:00
兹磁
|
538
twoyuan 2018-09-28 00:20:18 +08:00
有意思的软文。试试运气
|
539
Sivan2017 2018-09-28 00:28:08 +08:00 via Android
占楼,支持
|
540
ipuhua 2018-09-28 00:33:52 +08:00 via iPhone
这种叙述风格我喜欢!
|
541
fuergaosi 2018-09-28 00:37:39 +08:00 via Android
分母
|
542
zktz 2018-09-28 00:55:17 +08:00
顺丰包邮!
|
543
vvqqdd 2018-09-28 06:35:32 +08:00
wo lai kan kan
|
544
davin 2018-09-28 08:08:46 +08:00
看看能中不
|
545
chempotato 2018-09-28 08:23:30 +08:00 via Android
好的
|
546
wugiro 2018-09-28 08:23:45 +08:00
当个分母
|
547
HFX3389 2018-09-28 08:24:05 +08:00
坐等开奖
|
548
xinpure 2018-09-28 08:25:42 +08:00 via iPhone
拉低中奖率
|
549
FRankie222 2018-09-28 08:27:33 +08:00 via iPhone
抽奖方式有意思
|
550
iEuhgod 2018-09-28 08:32:22 +08:00
厉害。还有奖品!
|
551
jasonsui 2018-09-28 08:33:46 +08:00 via Android
占楼
|
552
ifconfig 2018-09-28 08:35:01 +08:00
好书,谢谢分享
|
553
iloxmn 2018-09-28 08:39:40 +08:00 via Android
分母
|
554
jmy 2018-09-28 08:46:22 +08:00
这个书名跟另外一本 Python 书一样吗?
|
555
lil460982475 2018-09-28 08:48:49 +08:00
有点意思
|
556
crisrock 2018-09-28 08:51:57 +08:00
分母
|
557
rooftop64 2018-09-28 09:10:33 +08:00
不错,喜欢这种文风
|
558
newbieRenew 2018-09-28 09:12:47 +08:00
这么多人来了,我也参加一下。
|
559
qinghon 2018-09-28 09:27:30 +08:00 via Android
占楼,想做分子:)
|
560
Dandy200 2018-09-28 09:29:04 +08:00
好书,支持一波
|
561
leeyom 2018-09-28 09:30:01 +08:00
拉低中奖率
|
562
XXneet 2018-09-28 09:30:43 +08:00
万一没中呢
|
563
sixm 2018-09-28 09:35:16 +08:00
日常分母
|
564
KingPL 2018-09-28 09:40:04 +08:00
日常分母
|
565
achenme 2018-09-28 09:46:24 +08:00
我是一个可爱的小分母
|
566
takashiki 2018-09-28 09:48:47 +08:00
分母+1
|
567
cokepro 2018-09-28 09:49:34 +08:00
支持!
|
568
cont 2018-09-28 09:50:56 +08:00
故事写得不错
|
569
imianhuatang 2018-09-28 09:55:59 +08:00
来一次小幸运吧
|
570
fine 2018-09-28 10:04:33 +08:00
分母+1
|
571
Jirry 2018-09-28 10:07:52 +08:00
有意思
分母 |
572
mouse0809 2018-09-28 10:09:06 +08:00
分母+1
|
573
iMusic 2018-09-28 10:41:04 +08:00
分母+1
|
574
itskingname OP 分母还不够啊。。
|
575
cptike 2018-09-28 12:25:11 +08:00
又到了测试运气的时候
|
576
itskingname OP 我发现有一些 V 友,他的回复记录里面全是免费送东西的帖子下面的回答。
|
577
cosmo 2018-09-28 13:11:47 +08:00 via Android
试试
|
578
lmxb 2018-09-28 15:06:56 +08:00 via Android
分母+1
|
579
lmxb 2018-09-28 15:09:14 +08:00 via Android
希望我的运气会爆棚
|
580
int11 2018-09-28 15:15:35 +08:00
Python 爬虫开发 从入门到送书
|
581
itskingname OP @int11 送送送
|
582
coderljx 2018-09-28 15:24:34 +08:00
占楼
|
583
470326964 2018-09-28 15:35:16 +08:00
Python 爬虫开发 从入门到送书
|
584
gtlions 2018-09-28 15:42:06 +08:00 via iPhone
必须来一波
|
585
gooood 2018-09-28 15:43:35 +08:00 via Android
可真的是厉害了
|
586
wangshichang 2018-09-28 15:56:57 +08:00
厉害!分母+1
|
587
valsdc 2018-09-28 19:32:48 +08:00
说的这个故事很有意思啊
|
588
chenyfc 2018-09-28 19:37:24 +08:00
分母
|
589
itskingname OP @valsdc 我还有更多的故事。
|
590
itskingname OP 各位,明天早上抽奖。大家注意。
|
591
Kirscheis 2018-09-28 20:05:35 +08:00
590 回复 [斜眼] 那岂不是还有 1%的机会,可以搏一搏
|
592
roronoaws 2018-09-28 20:10:33 +08:00 via Android
分母加一
|
593
kraymond 2018-09-28 20:13:38 +08:00 via iPhone
分母🐶
|
594
Dv 2018-09-28 20:14:48 +08:00
先膜拜
|
595
Dv 2018-09-28 20:15:02 +08:00
再加分母
|
596
WEAlex 2018-09-28 20:50:11 +08:00 via Android
分母+1。。。。
|
597
470326964 2018-09-28 20:54:40 +08:00
为拉低中奖率不折手段 3️⃣
|
598
dragonsky 2018-09-29 04:19:34 +08:00 via Android
分子?
|
599
Hauserkk 2018-09-29 09:12:58 +08:00
再当一次分子
|
600
mouse0809 2018-09-29 09:40:04 +08:00
分子来了!
|