需爬虫兼职的大牛及询价 - V2EX

Home Sign Up Sign In

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

This topic created in 4348 days ago, the information mentioned may be changed or developed.

请问各位大牛，有如下爬虫需求外包，请问一般开价几何？有兴趣的请联系我。谢谢。

针对类似如下网站，http://app.zjepb.gov.cn:8089/nbjcsj/
1. 按照规定的数据库表的格式，将基础数据和每小时的实时数据内容爬取下来存入数据库,其中初始阶段应将所有可能的历史数据保存。
算法要求：
1，从之前向现在的时间取爬取，这样如果因为网络等原因断开后，再次开始时，能自动从更早的时间点开始爬取。
2. 如果超时，至少要有3次重试。再超时，或者发生错误时，能发送邮件给指定人。
2. 性能：内存不能超过300M， CPU使用率不能超过30%。
3. 数据库：已设计好，使用postgresql.
4. 做成可以用cron调用的命令，比如ruby或者node.js的可以执行的命令。

Supplement 1 · Dec 19, 2014

寻长期兼职爬虫，最好python。懂postgresql和celery者优先。

18 replies • 2016-12-11 01:42:37 +08:00

1

rrfeng

Jul 30, 2014

怎么从『更早的时间』开始爬？

2

icedx

Jul 30, 2014

大约半狗

3

faceair

Jul 30, 2014

爬虫用node写不错

4

macken

Jul 30, 2014 via Android

这个爬虫需求不难，这个网站貌似很脆弱的样子，要注意别把对方的网站爬瘫，技术用啥实现都可以吧，crontab都可以调用

5

cdwyd

Jul 30, 2014

第二页还有往后的数据是根据首页的referer参数返回数据的？怎么会有这样的设计

6

d0o0g

Jul 30, 2014

专注爬虫定制服务三十年！经验丰富！
政府网站各种奇葩！
楼主的目标网站，响应很慢，不过也就十六页记录。
所以程序写起来不会太难，用python脚本实现，轻松搞定。

7

ultimate010

Jul 31, 2014

搞定不难，价位多少？

8

no13bus

Jul 31, 2014

恩。楼主给你163邮箱里面发了封邮件，你看看。可以的话联系邮件中的qq。

9

RangerWolf

Jul 31, 2014

你们是不是已经把这个网站搞瘫痪了？完全打不开啊~ 哈哈

10

chevalier

Jul 31, 2014

我可以做，原来做过半年的Python爬虫工作

11

baigreen

Jul 31, 2014

so easy~
小伙伴们上。。

12

guosunpeng

Jul 31, 2014

为什么我想起了shadowprotect的增量备份

13

chang888

Aug 4, 2014

可以用node来做，不难实现。

14

rubylove

OP

Dec 19, 2014

@chevalier 还有兴趣做吗？

15

rubylove

OP

Dec 19, 2014

@d0o0g 还有兴趣？

16

rubylove

OP

Dec 19, 2014

现在需要扩大规模，爬取更多省份数据，如果还有兴趣的兄弟们，请联系我。 QQ:18028206

17

chevalier

Dec 19, 2014

@rubylove 怎么联系你？

18

yongjiu236z

Dec 11, 2016

@d0o0g
@ultimate010
@no13bus
@chevalier
+Q2602560384

About · Help · Advertise · Blog · API · FAQ · Solana · 902 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 54ms · UTC 21:03 · PVG 05:03 · LAX 14:03 · JFK 17:03
♥ Do have faith in what you're doing.