Hi, all~
在闲暇时间里写了个爬虫,爬取拉勾网的数据,目前爬到了将近 5.4W 条公司的数据,近 10W 条职位的数据。
简单地做了个 web 页面展示关于各编程语言的职位详情,可以看到的信息有:
工作年限要求分布、
薪水分布、
各城市职位占比、
学历要求情况、
职位数量的变化情况、
招聘这些职位的公司的融资情况分布,
可访问 http://www.jobinfo.cc:8000/ 查看这些信息。
源码的地址: https://github.com/GuozhuHe/webspider
爬取到的数据已经放到百度云上了( https://pan.baidu.com/s/1gfIi5gv), 密码在项目的 readme 文件可以看到,诸位可自取~~
最后的最后,如果感觉还不错,不妨给个 star 哦 ~ yeap
_(:з」∠)_
1
hololens 2017-09-01 16:04:01 +08:00
楼主是知乎员工么,楼主能说一下学习爬虫的途径么。
|
2
CallMeHoney OP 买了本爬虫的书,了解些基础知识后就直接开始写项目了,遇到不会的问题就 google 解决。
|
3
a87150 2017-09-01 16:25:07 +08:00
echar.js 是啥? echarts ?
|
4
silencefent 2017-09-01 16:29:45 +08:00
数据还是看不出价值...比如搜 js 和搜客服,出来的数据都差不多
|
5
LeoNG 2017-09-01 16:33:35 +08:00
不知道是我电脑辣鸡还是什么,网页打开会卡一下。
Chrome. iMac 13. |
6
wen4434 2017-09-01 16:38:33 +08:00
有语言就更好了
|
7
geekyoung 2017-09-01 16:53:11 +08:00
在搜索框给个提示也许会更好,另外如搜索 自然语言处理 或 nlp 数据不一样,作者搜索这个地方是怎么处理的?
|
8
CallMeHoney OP @a87150 不注意写错了 (°Д°) ~~已经改过来了
|
9
CallMeHoney OP @silencefent 通常职位的数据差别不会很大,就算差个百分之十几从图像看起来也不会相差很大。我也发现了这个问题,在考虑更好更直观的方式呈现。
|
10
CallMeHoney OP @geekyoung 其实搜索这里取巧了,在抓取的时候会存储职位的关键词信息,搜索时查询的是关键词。
|
11
CallMeHoney OP @LeoNG 真的吗,可能加载 JS 时卡了。。 _:(´ཀ`」 ∠):_
|
12
xiaosheng 2017-09-01 17:18:57 +08:00
@CallMeHoney 求书名...
|
13
geekyoung 2017-09-01 17:24:06 +08:00
@CallMeHoney 恩 了解了
|
15
CallMeHoney OP @xiaosheng 书的确不重要 很多问题时在实际中才能遇到的
书是《 Python 网络数据采集》 比较薄 容易看完(当初也是因为这个原因才选的这本书) _(:з」∠)_ |
16
Clarencep 2017-09-01 17:45:45 +08:00
话说 Python 的职位好少,远不及 Java PHP
|
17
huangfs 2017-09-01 19:04:48 +08:00
http://www.jobinfo.cc:8000/?keyword=nlp 0727 貌似没数据了。
|
18
qianguozheng 2017-09-01 19:33:41 +08:00
这年头那么多人些 python 爬虫练手阿
|
19
justff 2017-09-01 23:10:31 +08:00 via Android
你们这个学校。。你哪年毕业
|
20
xiaotianhu 2017-09-01 23:29:20 +08:00 via iPhone
看起来 中老年人还是应该搞 java
|
21
sunwei0325 2017-09-02 00:06:53 +08:00
学习楼主代码中, 不知道还有 buildout 这个东西
|
22
hjdtl 2017-09-02 08:51:08 +08:00
daoyan??
|
23
CallMeHoney OP |
24
mafeifan 2017-09-02 13:41:49 +08:00
最好放上统计日期范围
|
25
hjdtl 2017-09-02 14:20:06 +08:00
@CallMeHoney 我以为你是我的朋友,头像一样。。。
|
26
winglight2016 2017-09-03 12:32:07 +08:00
北京地区需求高出这么多?感觉可能是拉钩的运营重点不同导致的吧?
|
27
CallMeHoney OP @winglight2016 北京的职位的确高出其他城市的很多 我看了一下其他招聘网站也基本是这个样子
|
28
wlh233 2017-09-03 23:49:35 +08:00
楼主是为了这个项目专门买了这个 jobinfo 域名吗_(:з」∠)_
|
29
CallMeHoney OP @wlh233 几十块而已。。
|
30
CallMeHoney OP @mafeifan 什么统计日期?是统计数据截止到几号吗
|
31
CallMeHoney OP @sunwei0325 感觉 buildout 还是挺好用的
|
32
CallMeHoney OP @justff 今年刚刚毕业~~
|
33
mafeifan 2017-09-04 20:21:55 +08:00
@CallMeHoney 这些数据是哪个时间段内的
|