Python 爬取拉勾策略的疑问 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3139 天前的主题，其中的信息可能已经有所发展或是发生改变。

各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢？我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右，每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧？

所以来此提问。还请知道的哥们指导一下。谢谢啦

8 条回复 • 2016-08-10 08:53:53 +08:00

1

wang9571

2016-08-09 20:28:54 +08:00

应该是网站限制最大显示 30 页。按城市、行政区、工作年限等条件组合搜索才会有更多内容

2

l0wkey

2016-08-09 21:33:01 +08:00

学习搜索引擎爬虫策略，递归来爬嘛.

3

sukai0me

2016-08-09 21:38:24 +08:00

#1 一楼方法是可行的，之前爬大众点评也是这样，它为了保护数据，每个条件下最多显示 N 条数据。
你可以算一下数量的，组合下来的数据量是远远大于网站上显示的

4

namco1992

2016-08-09 22:27:33 +08:00

我的办法很简单...遍历全站数据，然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id}，并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面，然后硬生生爬下来就好了，技术岗位貌似是从五万开始。

5

sniper1211

2016-08-10 00:00:35 +08:00

之前爬过，两个思路：
①按照其他筛选条件去爬
②直接去找 ID ，不过有些早期的职位不存在了

6

liulongfei

2016-08-10 08:24:23 +08:00

https://github.com/liulongfei/web_spider_lagou

7

liulongfei

2016-08-10 08:30:00 +08:00

你参考一下吧，大致的思路是先把首页的 job 都爬下来，然后在遍历这些 job 。
取招聘数据的时候，向一个地址 post 提交数据，一页一页的提交直到不返回数据的时候这个 job 的数据就没了。
获取到的数据我是放到 es 里面的方便分析。

8

allencode

OP

2016-08-10 08:53:53 +08:00

谢谢各位的耐心解答。目前已经解决了。我把一些重要的城市趴下来了。大概三十左右。然后再依次在这些指定的城市下面查询大致 40 个职位。目前爬虫正跑着呢。谢谢啦。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 3009 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 30ms · UTC 06:22 · PVG 14:22 · LAX 23:22 · JFK 02:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.