1
huruwo 2019-02-27 17:20:11 +08:00
开发环境的安装过程是必须的,你要是已经安装了就跳过前几章不就行了吗。
|
2
xiaozaiziwyt OP @huruwo 其实环境已经安装好了,我的意思是资料有些过时了,好多代码跑不起来……
|
3
redglede 2019-02-27 17:28:54 +08:00 via Android
视频网课不好吗
|
4
BlackPineappo 2019-02-27 17:31:18 +08:00
掘金和简书上有很多
|
5
dongya 2019-02-27 17:32:57 +08:00
直接写, 不用看教程,
|
7
Cooky 2019-02-27 17:43:18 +08:00 via Android
request + beautifulsoup 不用学直接裸写
|
8
xkeyideal 2019-02-27 17:54:27 +08:00 1
楼主是不是认为爬虫就是将别人的接口数据或网页获取后进行解析?
如果是,那么按照 @dongya 说的,不需要看教程,直接写,用到什么包就去找,或者自己撸即可,没有多少技术含量可言 真正的爬虫,应该是如何破解别人的防爬程序,图片验证码破解,js、浏览器,代理等 各类爬虫实战的书籍都是教你,怎么分布式,如何高性能,哪哪个库解析会比较不错,连个怎么挂代理都不教你,别人服务从源头上把你访问量掐死,这些有啥用? 还不如去 github 上找些相关的开源项目源码看看呢 一流爬虫是从防爬根源解决问题 二流爬虫是用某些 js 和无头浏览器解决问题 不入流爬虫是写个代码强搞,并发不控制,代理也不挂,拿别人当傻子 |
9
aaa5838769 2019-02-27 17:57:26 +08:00
request + beautifulsoup
|
10
xiaozaiziwyt OP @redglede 例如哪些呢?没了解过网课这些……
|
11
xiaozaiziwyt OP @BlackPineappo 感觉有些零散,有没有相对系统一些的
|
12
xiaozaiziwyt OP @xkeyideal 刚开始接触,基本没有什么技术可言,想一点一点来……
|
13
Outliver0 2019-02-27 18:08:00 +08:00
github 上找代码看,然后自己写
|
14
CFO 2019-02-27 20:15:58 +08:00 via Android
拿起 scrapy 的文档就是一把梭
|
15
redglede 2019-02-27 20:44:30 +08:00 via Android
@xiaozaiziwyt MOOC 上有个北京理工大学的爬虫课程,你去搜
|
16
Ehco1996 2019-02-27 21:50:43 +08:00 via iPhone
|
17
BlackPineappo 2019-02-28 08:46:19 +08:00
@xiaozaiziwyt 《 Python 爬虫开发与项目实战》
|
18
kblacksheep 2019-02-28 09:35:48 +08:00
崔庆才那本爬虫教程还不错的
|
19
a226679594 2019-02-28 10:08:38 +08:00
github
|
20
xpresslink 2019-02-28 10:13:34 +08:00 1
基本上不用看书,主要依赖于你的综合性基础。
先学一下 Python 语言基础,达到中级水平,正则表达式,常用标准库掌握了,特别是多线程,协程等还有相关的标准库要撸过练习代码。 数据库 Mysql,mongoDB,redis 基础操作都要会。 建设楼主先学一下 web 开发,你先要会 web 服务器是怎么工作的原理。推荐 flask 或 Django,建议 flask 吧,因为那个 sqlalchemy 是个通用 ORM,后面爬虫也常用到。 HTML,JS+Ajax,CSS 很熟悉。 HTTP 协议,Session,cookie,header 明白怎么回事。 前后端是如何交互的,用户登录安全验证等都要明白。 有了上面的基础,然后再学爬虫,都不用看书,随便网上参考一下教程,差不多半天时间就可以写了。 不过 scrapy 这个框架还是要大体学习一下的。 |
21
xiaozaiziwyt OP @xpresslink 好的,了解了,不过我是看别人说要先学爬虫在学 Web,因为爬虫是基础🤣
|
22
xiaozaiziwyt OP @BlackPineappo 这本书好像有些旧,是 17 年的。。。
|
23
dswill 2019-02-28 11:28:09 +08:00
我也是初学者,我看了 2.x 版本的基础,又看了 3.x 版本的。 我电脑上安装的是 3.7 版本的 python, 发现有很多旧版本的代码运行不了,不过这些运行不了的代码查下资料,就可以发现问题所在,所以就算是旧书籍,也可以学习,只是问题会多一些,但找问题解决也是一个学习过程。
|
24
dswill 2019-02-28 11:28:55 +08:00
书籍的话,我都是找社区或者学习群找前辈要的。
|
26
jianzhao123 2019-02-28 14:38:20 +08:00
@dswill 老哥能分享下不能:)
|
27
locoz 2019-02-28 15:40:08 +08:00
8 楼说的很对, 现在很多的教程 /书籍都是讲的那些基本操作,而真正碰到问题时用来解决问题的干货却很少,如果你想要入门的话还是实际爬点东西比较好。
打个小广告,可以关注一下我的知乎专栏《手把手教你写爬虫》 https://zhuanlan.zhihu.com/webspider,会发一些你平常看不到的干货,虽然没啥空闲时间码字,更新会比较慢 。 |
28
locoz 2019-02-28 15:40:43 +08:00
@locoz #27 后面那部分也给识别成链接的一部分了,重发一下。https://zhuanlan.zhihu.com/webspider
|
29
BlackPineappo 2019-02-28 15:49:35 +08:00
@xiaozaiziwyt 17 年还算旧?爬虫入门都是那些,代码能运行,原理都一样。
|
30
jalena 2019-02-28 15:53:38 +08:00
|
31
xiaozaiziwyt OP @dswill 知道了,那你主要学习的那些有名称吗? 我去看看
|
32
dswill 2019-03-01 16:05:26 +08:00 1
@jianzhao123
@xiaozaiziwyt 链接: https://pan.baidu.com/s/1bg0lKloSzqrldkPnX4FfuA 提取码: 4h23 这是我有的一些书籍,也比较杂,不过好像没有爬虫的。 |
33
xiaozaiziwyt OP @dswill 谢谢,请问你现在 py 学到哪个地步了?
|
34
dswill 2019-03-01 16:34:40 +08:00
@xiaozaiziwyt 我还没工作上实践过,都自己拿书敲一敲代码。 算个菜鸟级,具体什么地步,我也不清楚,起码你让我完成工作上的任务,还得有人带带才行,我想爬虫我是不是也可以学一学。 我还找朋友一起学,倒是有个伙伴,这点挺好,你如果有朋友也可以一起共勉。
|
35
Pzqqt 2019-03-01 21:06:37 +08:00
建议阅读《 Python 网络数据采集》
从 HTML 解析到 API 调用 从存取数据到 JavaScript 简介 从读取文档到 OCR 循序渐进 非常适合零基础接触爬虫的群众 看过其他那些些市面上已有的 Python 爬虫教程书籍 但这些书籍设计的起点都比较高 并不适合想学习爬虫的群众去看 PS:只是写一些简单的爬虫的话 用好 requests 库和 BeautifulSoup4 库就可以了 不要盲目跟风上来就接触 Scrapy 这种比较高级的库 |
36
xiaozaiziwyt OP @Pzqqt 这本书是只看原理就好了吗?因为书的内容有些旧
|
37
Pzqqt 2019-03-02 19:14:04 +08:00
@xiaozaiziwyt 哪里旧了。。。我是在阅读完《 Python 入门到实践》学习了 Python 基础之后再阅读这本书的 阅读起来没有什么障碍 也没有发现内容有什么过时的地方 如果你的起点比较高对入门类书籍不屑一顾的话那当我没说
|
39
273579540 2020-10-06 08:01:11 +08:00
www.learnfk.com/course-php7 PHP7 教程地址
|