有什么关于爬虫比较好的入门教程吗？

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2706 days ago, the information mentioned may be changed or developed.

某东上看了一些比较火的爬虫实战的书，发现不是一堆安装就是教程过时……
看得我是各种头疼，浪费生命。
有没有新一些的，可操作性强的呀。
新手入门求推荐。。。

教程

入门

可操作性

过时

39 replies • 2020-10-06 08:01:11 +08:00

huruwo

Feb 27, 2019

开发环境的安装过程是必须的，你要是已经安装了就跳过前几章不就行了吗。

xiaozaiziwyt

Feb 27, 2019

@huruwo 其实环境已经安装好了，我的意思是资料有些过时了，好多代码跑不起来……

redglede

Feb 27, 2019 via Android

视频网课不好吗

BlackPineappo

Feb 27, 2019

掘金和简书上有很多

dongya

Feb 27, 2019

直接写，不用看教程，

dongya

Feb 27, 2019

@dongya 不用看教材

Cooky

Feb 27, 2019 via Android

request + beautifulsoup 不用学直接裸写

xkeyideal

Feb 27, 2019

楼主是不是认为爬虫就是将别人的接口数据或网页获取后进行解析？

如果是，那么按照 @dongya 说的，不需要看教程，直接写，用到什么包就去找，或者自己撸即可，没有多少技术含量可言

真正的爬虫，应该是如何破解别人的防爬程序，图片验证码破解，js、浏览器，代理等

各类爬虫实战的书籍都是教你，怎么分布式，如何高性能，哪哪个库解析会比较不错，连个怎么挂代理都不教你，别人服务从源头上把你访问量掐死，这些有啥用？还不如去 github 上找些相关的开源项目源码看看呢

一流爬虫是从防爬根源解决问题
二流爬虫是用某些 js 和无头浏览器解决问题
不入流爬虫是写个代码强搞，并发不控制，代理也不挂，拿别人当傻子

MilkShake

Feb 27, 2019

request + beautifulsoup

xiaozaiziwyt

Feb 27, 2019

@redglede 例如哪些呢？没了解过网课这些……

xiaozaiziwyt

Feb 27, 2019

@BlackPineappo 感觉有些零散，有没有相对系统一些的

xiaozaiziwyt

Feb 27, 2019

@xkeyideal 刚开始接触，基本没有什么技术可言，想一点一点来……

Outliver0

Feb 27, 2019

github 上找代码看，然后自己写

CFO

Feb 27, 2019 via Android

拿起 scrapy 的文档就是一把梭

redglede

Feb 27, 2019 via Android

@xiaozaiziwyt MOOC 上有个北京理工大学的爬虫课程，你去搜

Ehco1996

Feb 27, 2019 via iPhone

https://github.com/Ehco1996/Python-crawler

BlackPineappo

Feb 28, 2019

@xiaozaiziwyt 《 Python 爬虫开发与项目实战》

kblacksheep

Feb 28, 2019

崔庆才那本爬虫教程还不错的

a226679594

Feb 28, 2019

github

xpresslink

Feb 28, 2019

基本上不用看书，主要依赖于你的综合性基础。

先学一下 Python 语言基础，达到中级水平，正则表达式，常用标准库掌握了，特别是多线程，协程等还有相关的标准库要撸过练习代码。

数据库 Mysql，mongoDB，redis 基础操作都要会。

建设楼主先学一下 web 开发，你先要会 web 服务器是怎么工作的原理。推荐 flask 或 Django，建议 flask 吧，因为那个 sqlalchemy 是个通用 ORM，后面爬虫也常用到。
HTML，JS+Ajax，CSS 很熟悉。
HTTP 协议，Session，cookie，header 明白怎么回事。
前后端是如何交互的，用户登录安全验证等都要明白。

有了上面的基础，然后再学爬虫，都不用看书，随便网上参考一下教程，差不多半天时间就可以写了。
不过 scrapy 这个框架还是要大体学习一下的。

xiaozaiziwyt

Feb 28, 2019 via Android

@xpresslink 好的，了解了，不过我是看别人说要先学爬虫在学 Web，因为爬虫是基础🤣

xiaozaiziwyt

Feb 28, 2019 via Android

@BlackPineappo 这本书好像有些旧,是 17 年的。。。

dswill

Feb 28, 2019

我也是初学者，我看了 2.x 版本的基础，又看了 3.x 版本的。我电脑上安装的是 3.7 版本的 python，发现有很多旧版本的代码运行不了，不过这些运行不了的代码查下资料，就可以发现问题所在，所以就算是旧书籍，也可以学习，只是问题会多一些，但找问题解决也是一个学习过程。

dswill

Feb 28, 2019

书籍的话，我都是找社区或者学习群找前辈要的。

dongya

Feb 28, 2019

@xkeyideal 我真是人在家中坐，锅从天上来，

jianzhao123

Feb 28, 2019

@dswill 老哥能分享下不能：）

locoz

Feb 28, 2019

8 楼说的很对，现在很多的教程 /书籍都是讲的那些基本操作，而真正碰到问题时用来解决问题的干货却很少，如果你想要入门的话还是实际爬点东西比较好。
打个小广告，可以关注一下我的知乎专栏《手把手教你写爬虫》 https://zhuanlan.zhihu.com/webspider，会发一些你平常看不到的干货，虽然没啥空闲时间码字，更新会比较慢

。

locoz

Feb 28, 2019

@locoz #27 后面那部分也给识别成链接的一部分了，重发一下。https://zhuanlan.zhihu.com/webspider

BlackPineappo

Feb 28, 2019

@xiaozaiziwyt 17 年还算旧？爬虫入门都是那些，代码能运行，原理都一样。

jalena

Feb 28, 2019

https://gitee.com/xiyouMc/pornhubbot

xiaozaiziwyt

Feb 28, 2019

@dswill 知道了，那你主要学习的那些有名称吗？我去看看

dswill

Mar 1, 2019

@jianzhao123
@xiaozaiziwyt
链接: https://pan.baidu.com/s/1bg0lKloSzqrldkPnX4FfuA 提取码: 4h23
这是我有的一些书籍，也比较杂，不过好像没有爬虫的。

xiaozaiziwyt

Mar 1, 2019

@dswill 谢谢，请问你现在 py 学到哪个地步了？

dswill

Mar 1, 2019

@xiaozaiziwyt 我还没工作上实践过，都自己拿书敲一敲代码。算个菜鸟级，具体什么地步，我也不清楚，起码你让我完成工作上的任务，还得有人带带才行，我想爬虫我是不是也可以学一学。我还找朋友一起学，倒是有个伙伴，这点挺好，你如果有朋友也可以一起共勉。

Pzqqt

Mar 1, 2019

建议阅读《 Python 网络数据采集》
从 HTML 解析到 API 调用从存取数据到 JavaScript 简介从读取文档到 OCR 循序渐进非常适合零基础接触爬虫的群众
看过其他那些些市面上已有的 Python 爬虫教程书籍但这些书籍设计的起点都比较高并不适合想学习爬虫的群众去看
PS：只是写一些简单的爬虫的话用好 requests 库和 BeautifulSoup4 库就可以了不要盲目跟风上来就接触 Scrapy 这种比较高级的库

xiaozaiziwyt

Mar 1, 2019 via Android

@Pzqqt 这本书是只看原理就好了吗？因为书的内容有些旧

Pzqqt

Mar 2, 2019

@xiaozaiziwyt 哪里旧了。。。我是在阅读完《 Python 入门到实践》学习了 Python 基础之后再阅读这本书的阅读起来没有什么障碍也没有发现内容有什么过时的地方如果你的起点比较高对入门类书籍不屑一顾的话那当我没说

darknoll

Mar 4, 2019

@jalena 胆真肥，不怕抓起来坐牢啊

273579540

Oct 6, 2020