V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ioiogoo
V2EX  ›  Python

抓取拉勾网的招聘信息并用图表进行展示,欢迎各路大神提出意见

  •  2
     
  •   ioiogoo · 2016-08-31 20:15:59 +08:00 · 3988 次点击
    这是一个创建于 3004 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前段时间一直也没什么事,所以做了这么一个小项目,爬取了拉勾网八万多的招聘信息(2016.8.16 号左右),并将其按照城市、职业、薪资水平分类展示,并可以点击查看任意小分类下具体职位信息,网站还有很多东西需要完善,所以还请大家提点意见。在线 demo : 互联网行业招聘需求分析,图表信息是可以点击的哦。

    招聘信息来源

    • 用 scrapy 爬取拉勾网的招聘信息,涉及 226 座城市、 152 种职业类型的共 87161 个招聘信息
    • 数据存储在 mysql 数据库
    • 项目地址:Lagou_spider

    部署方式

    网站搭建在小水管上,所以打开速度不是很快,见谅

    • 采用 nginx + gunicorn + flask 的方式

    前端展示

    由于本人渣渣前端,所以展示效果已经尽力。点击具体图表可以进入具体模块的详细信息

    TODO

    • 专门针对 Python 做一份详细的分析图表
    • About Me 页面

    希望各路大神走过路过看一看,提点意见,谢谢

    16 条回复    2016-09-01 21:12:58 +08:00
    CoSpLi
        1
    CoSpLi  
       2016-08-31 20:28:48 +08:00
    话说我之前也爬过。。然后因为某些原因项目搁置就 GG 了= =
    li24361
        2
    li24361  
       2016-08-31 21:57:39 +08:00
    支持一个,拉钩有个接口直接返回 json ,很是良心,省去了解析 html 的工作,但是我还是忍不住说一点,拉钩的工资,太特么虚了,跟实际对不上
    wangtuyi
        3
    wangtuyi  
       2016-08-31 22:11:48 +08:00
    sunyaxiongnn
        4
    sunyaxiongnn  
       2016-08-31 22:12:39 +08:00
    正在学习爬虫,观摩下代码,更要学习楼主的动手精神
    ioiogoo
        5
    ioiogoo  
    OP
       2016-08-31 22:50:28 +08:00
    @wangtuyi 感谢指正,因为之前调整了下排版,有些细节地方忘了修改
    ioiogoo
        6
    ioiogoo  
    OP
       2016-08-31 23:00:05 +08:00
    @li24361 对的,我也是直接返回 json 的,具体可以看我的爬虫代码,但是基本上很快的时间就能封掉一个 ip ,所以我还写了一个免费代理的爬虫项目。另外拉勾上的工资一般都是取下限的,虚高很正常,互联网行业本身就有很多泡沫
    katos
        7
    katos  
       2016-09-01 01:10:41 +08:00
    赞一个
    Tom008
        8
    Tom008  
       2016-09-01 10:25:49 +08:00
    java 工作量是 c++的 5 倍左右 !这尼玛
    tntC4stl3
        9
    tntC4stl3  
       2016-09-01 10:50:46 +08:00
    @li24361 所以我觉得一般先问,给不给得到 xx ,不然不用继续了。
    luofei23
        10
    luofei23  
       2016-09-01 11:53:28 +08:00
    很厉害!因为最近我也想用拉勾网练习爬虫技术。没想到您已经做的这么完善了。请问一下如果做成这一个项目,爬虫,数据处理,前端页面,然后以这个项目去求职可行吗??最近转行中,感觉没有能拿出手的项目。谢谢。
    ioiogoo
        11
    ioiogoo  
    OP
       2016-09-01 16:26:45 +08:00   ❤️ 1
    @luofei23 应该是可以拿去求职的吧,我不太清楚,但是这个说实话也没太多的技术含量,自己玩玩还可以。如果你要做一个求职的项目的话,专注一个方向,前端就前端,后端就后端,一个方向深入下去可能好点
    ioiogoo
        12
    ioiogoo  
    OP
       2016-09-01 16:27:44 +08:00
    @katos 感谢
    gzxultra
        13
    gzxultra  
       2016-09-01 18:01:48 +08:00
    看文件结构一点都没看出来是 flask...话说 pyc 不要加到版本控制里啊....
    ioiogoo
        14
    ioiogoo  
    OP
       2016-09-01 20:17:23 +08:00
    @gzxultra flask 用 blueprint ,结构不就是这样的吗?还有,额,版本控制里本来就没有 pyc 啊,看错了?
    gzxultra
        15
    gzxultra  
       2016-09-01 20:53:03 +08:00
    @ioiogoo 抱歉看的 Lagou_spider
    tikazyq
        16
    tikazyq  
       2016-09-01 21:12:58 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1167 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:06 · PVG 07:06 · LAX 15:06 · JFK 18:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.