拉勾网 python 相关职位爬取以及分析展示，希望各位批评指正

至于抓取回来的数据，其实并没有做什么分析，只是归类展示。对于关键词的整理，算是用了比较 trick 的方法，通过正则匹配出所有英文单词，排除掉某些不需要的词组，然后进行词频的排序，得出了一个高频关键词的结果。但是这个不算是方法的方法，势必会遗漏掉某些可能是通过中文描述的关键词组，所以还望有经验的前辈指教。

数据展示网站示例：http://107.170.207.236/job_analysis/（就是台 DO 的 5 刀服务器，各位高抬贵手）

数据展示项目地址：https://github.com/namco1992/job_analysis

爬虫项目地址：https://github.com/namco1992/lagou_crawler

本人前端苦手，现在只是做了一个非常简陋的展示，没有做更进一步的分析。也希望感兴趣的朋友能提些不同维度分析的建议，当然也非常欢迎直接提 issue 或者 Pull Request 。

我个人想到的还有通过地域维度分析薪酬情况，或者增加更多类别的工作岗位抓取。也希望大家有其他想法的话能够不吝赐教。

最后，如果能给个 star ，那就是对我莫大的支持了。再次感谢！

拉勾网

Python

抓取

展示

28 条回复 • 2016-07-19 17:04:39 +08:00

namco1992

2016-07-08 08:51:45 +08:00

有人能给点反馈么~[认真脸]

Allianzcortex

2016-07-08 08:54:12 +08:00

为什么都喜欢用 scrapy …… 果然我还要再学一遍……

我当时专门在虚拟机里装了 Fiddler 来分析拉钩，其实网页链接是挺奇葩的，比如正常的职位显示是在网页上就能得到，但有些需要专门 Post 个请求来得到 JSON 数据。

关于词频显示，我用的是 jieba ，但效果不好，用正则来匹配就很棒啊。已 star

我是一直没有在数据库里进行存储，这点要向楼主学习

==啊，我把我当时写的也放到 github 上，就是里面的一个 res.json 数据

Allianzcortex

2016-07-08 09:09:15 +08:00

RT https://github.com/Allianzcortex/lagou_crawler 好长时间前写的了

namco1992

2016-07-08 09:16:36 +08:00

@Allianzcortex

词频的话，我当时就想应该绝大多数技术要求的关键词都是英文单词，所以索性就用正则匹配出来了，就是有个问题，英文描述的工作职位就没有办法抓取到对应的关键词。

然后存在 mongodb 里面主要是为了分析方便，工作职位信息相对来说时效性没有那么强，在一段时间内都有分析价值。

我看了你的 repo ，感觉你的点子更棒啊~

Allianzcortex

2016-07-08 09:19:48 +08:00

@namco1992 不是谦虚，真的写的渣，刚刚才 Push 上去的代码。怎么说，看到拉钩上的职位都是 qianduankaifa,houduankaifa 这种后缀，真是觉得……擦擦擦

wujunze

2016-07-08 09:25:42 +08:00

不错已经 star 最近也在玩儿爬虫学习了

namco1992

2016-07-08 09:44:56 +08:00

@Allianzcortex 我都是遍历的...第一次统计都需要爬两百万个页面...

xiaoyu9527

2016-07-08 11:33:22 +08:00

@namco1992 拉手并没有封 IP 的问题么？

namco1992

2016-07-08 11:46:28 +08:00

据我所知没有封 IP ，也不知道拉勾的人上不上 V 站，不过还是低调点好

practicer

2016-07-08 11:49:06 +08:00

拉钩的请求速度怎么样？楼主有统计爬虫的速度嘛？

namco1992

2016-07-08 13:42:55 +08:00

还 ok ，我就是在自己普通 PC 上跑的，大概每分钟 300 个页面。 python 相关职位接近 4000 个，爬起来还是比较快的。

zoudeze

2016-07-08 13:53:36 +08:00 via Android

突然间感觉 do 访问好快啊

GreatMartial

2016-07-08 14:00:05 +08:00 via Android

支持一个

jzp113

2016-07-08 14:28:07 +08:00

看到了保健按摩。

namco1992

2016-07-08 14:31:03 +08:00

@jzp113 哈哈哈，被发现了。之前做的 side project ，不过反正是做给国外用户的，不算犯法吧[doge]

namco1992

2016-07-08 14:31:51 +08:00

@zoudeze 旧金山的线路，偶尔还是会抽风访问不了

slysly759

2016-07-08 17:22:58 +08:00

都是 json 格式的我原来也写过一个当时就爬了一万条的样子也是放在 mongodb 用别人的 BI 做的可视化没什么难度

pepesii

2016-07-08 17:39:57 +08:00

额，我也做了一个！比你的那个丑！还是我的毕业设计！

jzp113

2016-07-08 17:52:12 +08:00

@namco1992 不错，中国的有吗？

namco1992

2016-07-08 20:50:12 +08:00

@jzp113 哈哈，别想了兄弟，没有中国的

wslsq

2016-07-08 22:34:46 +08:00

楼主做的还不错！赞！期待能制作一个前端方面的，谢谢！

namco1992

2016-07-09 08:58:10 +08:00

@wslsq 可以啊，有时间就多做几种职位，你也可以 fork 回去自己做~

GeekGao

2016-07-09 23:41:19 +08:00

很酷的 idea

GeekGao

2016-07-09 23:44:58 +08:00

提个小建议哈，楼主可以基于招聘网站需求，搞个“技术雷达”，分析下，排除语言条件外，用啥具体的技术， offer 会更高

namco1992

2016-07-10 09:40:42 +08:00

@GeekGao 多谢建议~

heamon7

2016-07-10 11:45:03 +08:00

非常赞！

namco1992

2016-07-10 18:19:48 +08:00

@heamon7 谢谢鼓励~

Toddz

2016-07-19 17:04:39 +08:00

想问下有添加什么反反爬虫措施吗？几个月前自己用 requests 写的爬虫现在又试了试差不多 20 页左右就被封了