我有 3500 个网站的顶级域名,现在需要获取每个 website 内的全部子 url,并爬取子 url 内的 html 文字信息。
举例来说,以 www.giftofwings.com 为例子: 得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url,注意这里不要.js 和.css 等,只要页面。 拿到这个 list 后在做一个简单的 html 爬取,最后提交的是这些 html 的源码,只要文字信息,不爬任何多媒体,所以应该比较快。
详讯麻花腾:腰腰霸腰霸叁叁玲叁伍 null。
1
hourann 2018-04-22 11:44:36 +08:00 via iPhone
没法保证爬干净吧?
|
2
zuoakang 2018-04-22 12:02:54 +08:00
上价格呗
|
4
Leigg 2018-04-22 12:06:24 +08:00 via iPhone
腰霸好评
|
5
gdtv 2018-04-22 12:59:30 +08:00
假如这 3 千多个网站没有任何防爬虫措施,并且这 3 千多个网站服务器性能扛得住爬虫,那么的确挺简单的。
|
6
sunsh2017 2018-04-22 13:03:42 +08:00
报价格。
|
7
KKKKKK 2018-04-22 13:35:57 +08:00 via iPhone 1
我的需求只有一个,news.qq.com ,只爬文字,不需要多媒体,应该挺简单的,所以比较快。急
|
8
exalex 2018-04-22 13:38:02 +08:00 1
急 预算 200 块 需求很简单 最多几小时的事情。
楼主大概就这意思 |
9
exalex 2018-04-22 13:40:04 +08:00 7
有个不是很紧急的少量页面的项目需要外包,有人可以接私活吗?项目需求不算很紧,工作量很小。
inksong • 53 天前 我有个紧急的一次性 mapreduce 项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。 inksong • 80 天前 我有个紧急的一次性爬虫项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。 inksong • 88 天前 戏精?已 block |
11
wenzhoou 2018-04-22 15:52:47 +08:00 via Android
这是在测试自己的自动灌水机啊。
|
12
stzz 2018-04-22 16:56:02 +08:00 via Android
好奇这人干嘛的…
|
13
jingrui 2018-04-22 18:26:20 +08:00 via iPhone
15w,3 天,还有惊喜,愿意私信
|
14
summerwar 2018-04-22 18:39:52 +08:00
标题中,倒数第二句和倒数第一句内容冲突
|
17
huluhulu 2018-04-22 20:44:29 +08:00 via iPhone
我正好有全套代码……只需要输入域名即可,10 万,2 天
|
18
imkerberos 2018-04-22 21:18:09 +08:00
我正好有全套写好的代码. 连 SERVER + Browser 界面. 10 万, 同楼上 2 天.
|
19
DeWhite 2018-04-22 21:48:08 +08:00
楼上这个价格合理
|
21
PythonAnswer 2018-04-23 09:24:45 +08:00 via iPhone
看来要价不能超过 200
|
22
winglight2016 2018-04-23 18:50:18 +08:00
@Leigg 很正常了,之前也是碰到一单,同样是爬网站,报价 500,我说我这里是现成的代码,还带个 GUI 管理界面,2k,然后就没消息了
|