Python 抓取拉勾网职位分布[回报 v2ex]

def insert_data(self,data):
    data['_id'] = data['positionId']
    data['updateTime'] = datetime.datetime.now()
    # 防止重复插入
    db.Collection.update_one(
        filter={'_id': data['_id']},
        update={'$set': data},
        upsert=True
    )
    count = db.Collection.count()
    print u'已经存储了：',count,u'条记录'

代码

写了很多爬虫，分享给大家。共同进步学习。希望有用。

代码可以在这里取到

第 1 条附言 · 2016-08-16 08:21:53 +08:00

如下为构建的存储信息：

                    formatData = {
                        "companyShortName": i['companyShortName'],
                        "salary":i['salary'],
                        "city": i['city'],
                        "education": i['education'],
                        "positionName": i['positionName'],
                        "workYear": i['workYear'],
                        "companySize": i['companySize'],
                        "financeStage": i['financeStage'],
                        "industryField": i['industryField'],
                        "positionId":i['positionId']
                    }

第 2 条附言 · 2016-08-16 14:29:25 +08:00

被封了 2 个 IP 。大约可以爬 8w+ 的数据。代理还不是很可靠。没有找到好的解决办法。数据存储在 MongoDB 。后续会有一些分析。打算用百度的 Echarts 来完成图标的绘制。

第 3 条附言 · 2016-08-16 20:29:57 +08:00

添加了抓取代理的爬虫。 https://github.com/wuchangfeng/Crawler/tree/master/XiciDaili

第 4 条附言 · 2016-08-17 08:26:35 +08:00

打个广告。可以接爬虫私活。也可以做数据分析展示等。

Data

id'

职位

Python

10 条回复 • 2016-08-16 20:36:08 +08:00

ioiogoo

2016-08-15 19:27:04 +08:00

`如下 Request URL 中的 %E7... 即为对应查询关键字的 16 进制表现形式`
这个应该是 url 编码后的表现形式啊

allencode

2016-08-15 19:30:09 +08:00

@ioiogoo 嗯是的。代码中可以用 Python 相应模块将关键字转化为 16 进制形式。

keyWord1 = urllib.quote(hy)

这句代码即可实现汉字到 16 进制编码的转换。

lzgbeyong

2016-08-16 11:07:55 +08:00

楼主资料整理的很详细，赞一个。
正好我最近用 ndoe 也做了一个拉勾网的爬虫，可以实时在线查看招聘职位数量和城市的分布，有兴趣的可以看看。
因为 js 的异步特性，爬取多个 url 的信息会比 python 快很多。

在线地址： http://123.56.17.200:8082/
github 地址： https://github.com/woxixiulayin/lagou_spider

allencode

2016-08-16 11:13:55 +08:00 via Android

@lzgbeyong 哈哈，好的。学习一个。

sleshep

2016-08-16 11:58:32 +08:00

@lzgbeyong
gevent 表示不服

allencode

2016-08-16 14:03:22 +08:00

@lzgbeyong 绘图好赞。是百度的那个 Echarts 吗

pathbox

2016-08-16 20:04:11 +08:00

果然还是会被封

allencode

2016-08-16 20:13:42 +08:00

@pathbox 嗯呢。爬了两个晚上。都是早上被封的。后来抓了些代理，但是可用性不高。能用的也只有五六个。我把抓代理的代码也贴上好了。

lzgbeyong

2016-08-16 20:27:00 +08:00

@allencode 是的， api 很简单，你可以用来做展示

allencode

2016-08-16 20:36:08 +08:00

@lzgbeyong 嗯呢我就打算用那个来做展示呢，现在还没怎么会用。只会用在线的。