V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sweetcali
V2EX  ›  外包

爬虫抓取高校官网公开信息

  •  
  •   sweetcali · 2017-12-14 11:31:51 +08:00 · 1469 次点击
    这是一个创建于 2540 天前的主题,其中的信息可能已经有所发展或是发生改变。
    教师的邮箱,姓名,职称,学院,系或学科,联系方式。
    要求就是官方公开的信息即可,扒下来统计到 EXCEL 即可
    北京,上海,广州,深圳,南京,苏州,武汉,成都
    这 8 个城市的重点高校,一本二本即可。
    一毛一条,按照上面规范的话,给多少要多少,数据我们会作验收审核,所以要在 excel 里体现抓取来源,抓取日期等。
    这个很没水平,但是如果有愿意的话,可以联系我一下
    36 条回复    2018-01-22 16:27:21 +08:00
    gyh
        1
    gyh  
       2017-12-14 12:41:41 +08:00
    一所大学的要么
    zzw888888
        2
    zzw888888  
       2017-12-14 13:05:14 +08:00
    这边是资深抓取:wx:bestdata
    sweetcali
        3
    sweetcali  
    OP
       2017-12-14 14:10:01 +08:00
    @gyh 当然可以!
    gyh
        4
    gyh  
       2017-12-14 14:16:15 +08:00
    @sweetcali #3 wechat:R3VveWhfXw==
    sweetcali
        5
    sweetcali  
    OP
       2017-12-14 14:25:06 +08:00
    @gyh 这是啥规则转换的。。能直接告诉我吗,让 2 个技术来看了也没反应过来。。
    gyh
        6
    gyh  
       2017-12-14 14:29:21 +08:00
    @sweetcali #5 base64 啊。。
    lsxiao
        7
    lsxiao  
       2017-12-14 14:29:25 +08:00
    @sweetcali Base64,这是解码网站,解冒号后面的就行了。https://1024tools.com/base64
    sweetcali
        8
    sweetcali  
    OP
       2017-12-14 14:36:50 +08:00
    @lsxiao to7 ,谢谢!我们还在数多少位,想他是怎么弄的。。。
    sweetcali
        9
    sweetcali  
    OP
       2017-12-14 14:37:05 +08:00
    @gyh 已经加你了
    gyh
        10
    gyh  
       2017-12-14 14:40:30 +08:00
    @sweetcali #9 没有收到,确认下名字最后是两条下划线万一你不是复制的话
    cxl008
        11
    cxl008  
       2017-12-14 14:40:45 +08:00
    码工作量了。。。。
    kuroismith
        12
    kuroismith  
       2017-12-14 14:42:02 +08:00
    麻将脸
    mrsunday
        13
    mrsunday  
       2017-12-14 16:35:23 +08:00
    叫我 wx:mrsundaychen,可以详聊
    linuxchild
        14
    linuxchild  
       2017-12-14 17:34:50 +08:00
    1 个学校有 500 个公开信息的话大概是 50。。GG
    leyle
        15
    leyle  
       2017-12-14 17:50:33 +08:00
    @linuxchild 你这样一算,好廉价。

    一个城市,以成都为例,4 个一本,估计有几个二本,两个加起来估计有十来个,或者更多一点。
    把这八个城市综合一下,算 15 个学校一个城市,总的就是 120 个学校。
    每个学校假设有 500 个公开信息,就是差不多 6000 块,这个 500 个公开信息还是乐观估计的。

    如何寻找到这些公开信息,并且写规则提取出来,都是工作量,同一个学校的不同页面,如果存在了这些信息,
    很有可能规则是不一样的,换句话说,一个学校估计有好几个提取规则。

    120 个学校,保守估计,至少要写 300 个规则。然后乐观估计才 6000 块。

    20 块钱一个规则。

    为什么这里这个就没人吐槽价格低廉,还一堆人留联系方式了。
    sweetcali
        16
    sweetcali  
    OP
       2017-12-14 18:13:43 +08:00
    @leyle 需求是 50 万条.....而且我们从没有这种经验。。所以都可以聊
    sweetcali
        17
    sweetcali  
    OP
       2017-12-14 18:14:25 +08:00
    不是我个人的想法。。。上面有老总,我也非常头疼,现在是纯人工在录入,纯人工!
    lhx2008
        18
    lhx2008  
       2017-12-14 18:54:11 +08:00 via Android
    之前做过是 5 毛一条,联系方式大部分都没有,每个学院的样式不一样,gg
    lhx2008
        19
    lhx2008  
       2017-12-14 18:58:58 +08:00
    @sweetcali wx:
    bmV3X19vYmplY3Q=
    (两横)
    codeyung
        20
    codeyung  
       2017-12-14 19:30:50 +08:00
    。。。这价格
    jatesun
        21
    jatesun  
       2017-12-14 20:33:52 +08:00
    按学校来还差不多,一个学校 1000。→_→
    xingzheduan
        22
    xingzheduan  
       2017-12-14 21:27:11 +08:00 via Android
    我感觉一毛一条太便宜了因为每个学校的网页是不同的,意味着可能要根据不同的网页写相对应的爬取规则
    402124773
        23
    402124773  
       2017-12-14 21:33:46 +08:00
    最近在家闲着,wx:13267223917
    juedi998
        24
    juedi998  
       2017-12-14 21:44:37 +08:00
    表示有心无力啊,一毛一条真的廉价了些,网页太多啦,
    TICE
        25
    TICE  
       2017-12-14 21:48:18 +08:00
    @sweetcali 微信 /QQ: MTQ0ODE4MzkwMw==
    wh01096045
        26
    wh01096045  
       2017-12-14 21:54:26 +08:00
    @sweetcali 微信:15578146934
    cszchen
        27
    cszchen  
       2017-12-14 22:10:44 +08:00 via iPhone
    这跟人工录入没太大区别吧
    msl12
        28
    msl12  
       2017-12-15 00:35:27 +08:00
    @lsxiao 你这搞出个答案就没什么意思了...
    zzl
        29
    zzl  
       2017-12-15 10:50:09 +08:00
    微信:zhili124
    linuxchild
        30
    linuxchild  
       2017-12-15 10:56:53 +08:00
    @leyle 嘿嘿,可能大家都是练手吧。

    这东西反正没什么技术含量,纯粹是体力活,毕竟每个学校的规则都不一样
    wjx1993
        31
    wjx1993  
       2017-12-15 12:38:31 +08:00 via Android
    @linuxchild 也对,体力活,小心身体吃不消😂
    JayFang1993
        32
    JayFang1993  
       2017-12-15 13:50:19 +08:00
    体力活 每个学校官网也不统一~~~~
    jssyxzy
        33
    jssyxzy  
       2017-12-18 10:25:05 +08:00
    我可以看看,还收人不,另外怎么防止不同的人抓取重复呢
    hidder
        34
    hidder  
       2017-12-18 15:55:15 +08:00
    @sweetcali 加我微信 gf5824119
    itsql
        35
    itsql  
       2018-01-18 21:57:17 +08:00
    我有相关的数据,可以合作,请联系我
    NotNil1
        36
    NotNil1  
       2018-01-22 16:27:21 +08:00
    直接用手把,写爬虫也快不了多少的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5457 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 07:36 · PVG 15:36 · LAX 23:36 · JFK 02:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.