一名在校本科生,对爬虫感兴趣(觉得很有意思),仅仅是在跟着崔庆才老师的《实战》走,将近看完,却感觉前面很多东西也记得不清楚了(针对一个问题崔老师平行给出了很多方案,使用不同的库解决同一件事让我觉得好繁琐),最终自己只是"知道"和"简单使用"了很多工具和怎样找轮子(自己也动手写过一些微博爬虫但很一般),感觉自己在制作"玩具代码"的路上找不到方向,却还想不半途而废,请求指点?
1
giveupAK47 OP 今年大二,想在课程之外自己做点东西,丰富自己。大一自学了算法数据结构(大一不开),因为有自己同学在做 acm,自己也跟着玩,然后今年暑假参加了暑假集训,自己结考的成绩也不差,但大二开学后,我从没有过竞赛经历,觉得自己对这个方向实在提不起劲,经常找不到自己熬了很久的一个东西的意义,同时也不想对它有过多功利看法,遂决定停止。
|
2
giveupAK47 OP 不知道这是不是自大,但总感觉老师讲的很慢有点一般,真的不如自己在自习室看书,寝室的兄弟们也有自己的爱好,日子也都有自己的意思。但是我望着前方,深深感到了一种无力感。
|
3
lhx2008 2018-10-22 22:30:20 +08:00 1
主要是自己找点有意思的东西来玩,其实爬虫其实也不用学很多,requests/selenium + pyquery 足够解决 80% 网站了,还有收费的代理池可以解决 15% 的网站。
还有就是定一个就业方向,是开发还是算法,开发的话是移动端前端还是后端,然后里面都大把东西要学的。 如果不清楚要学什么可以去看看招聘 |
4
SpiderXiantang 2018-10-22 23:19:55 +08:00
大三爬虫怪给你解答一下,我觉得爬虫还是得熟稔一下爬虫框架 Scrapy
1.读一下源码,然后了解下他的队列 /去重是怎么运作的,自己写一个实现了主要功能的框架 2.补一下数据结构和算法 例如 scrapy 的几个队列和大名鼎鼎的布隆过滤器都依赖的是数据结构 3.对 Python 要有深入的了解《流畅的 Python 》 《 cookbook 》等书籍,毕竟学好 scrapy/pyspider 你装饰器生成器总是要知道吧 4.然后就是再学一门语言推荐 java 可以做大数据也可以做后端 看你 爬虫是个伪需求,比较难找,不过也不代表找不到 |
5
SpiderXiantang 2018-10-22 23:23:13 +08:00 1
我觉得还是需要理论的积累比较重要 对于老师的课 我们的 java 顶多教的是 api 的用法 对功力的提升基本为 0 程序员的 10 年生涯 api 有你调的 不如学点原理东西 为以后工作图个方便
|
6
Everyman 2018-10-22 23:30:54 +08:00 1
只有我一个人好奇发在了“京东”节点上了吗?😂
|
7
giveupAK47 OP @SpiderXiantang 多谢您给一个思路,那就先把爬虫做完善。
|
8
giveupAK47 OP @lhx2008 感谢
|