V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
feiniu
V2EX  ›  职场话题

新入职,我感觉我不适合这行

  •  
  •   feiniu · 2020-09-25 15:51:55 +08:00 · 5102 次点击
    这是一个创建于 1520 天前的主题,其中的信息可能已经有所发展或是发生改变。

    新入职,加这周才 2 周

    老大这周一给我一个任务

    爬 tmall 店 铺商品列表

    我只想说,周一到现在,我感觉我要自闭了

    第 1 条附言  ·  2020-09-27 18:58:44 +08:00
    我还是太年轻啊。城市道路太滑了,说好的不加班,结果。。。。。。入职的第三天,搞到凌晨 2 点才回去
    35 条回复    2020-09-27 12:15:09 +08:00
    wangkun025
        1
    wangkun025  
       2020-09-25 15:55:21 +08:00
    这个……食宿免费?
    kop1989
        2
    kop1989  
       2020-09-25 15:57:06 +08:00   ❤️ 1
    动物节点可还行😂,码畜坐实了。
    慢慢学习,程序员算是少有的知识就是力量的职业了。
    feiniu
        3
    feiniu  
    OP
       2020-09-25 16:18:51 +08:00
    @wangkun025 晚上还是要回去的
    feiniu
        4
    feiniu  
    OP
       2020-09-25 16:19:23 +08:00
    @kop1989 老哥有什么门路吗
    gou7ma7
        5
    gou7ma7  
       2020-09-25 16:25:27 +08:00 via Android
    啥外企啊还爬,话说是不是真的 955 啊?我也在深大地铁站附近。
    wysnylc
        6
    wysnylc  
       2020-09-25 16:27:14 +08:00
    迟早进去
    caicaiwoshishui
        7
    caicaiwoshishui  
       2020-09-25 16:48:59 +08:00 via iPhone
    Github 没有这种轮子吗?可以查下
    tomczhen
        8
    tomczhen  
       2020-09-25 18:03:00 +08:00 via Android   ❤️ 3
    淘宝系的正常使用如果浏览快点都给你弹各种验证码,写爬虫还不如多顾几个大学生手工录入。

    哦,不对,应该叫大数据实习生。
    feiniu
        9
    feiniu  
    OP
       2020-09-25 18:34:03 +08:00
    @gou7ma7 955 是不可能的。到点了一个个都不走,我也不知道为什么。连续一周都是我第一个走。。。。
    feiniu
        10
    feiniu  
    OP
       2020-09-25 18:34:17 +08:00
    @caicaiwoshishui 没找到轮子。。。
    feiniu
        11
    feiniu  
    OP
       2020-09-25 18:34:27 +08:00
    @tomczhen 这也可以吗😭
    Cooky
        12
    Cooky  
       2020-09-25 18:36:55 +08:00 via Android
    selenium 慢点跑?
    TimeRain
        13
    TimeRain  
       2020-09-25 18:54:39 +08:00
    这种爬虫公司蛮危险呀,爬虫一时爽,终身火葬场
    helloworld2010
        14
    helloworld2010  
       2020-09-25 19:05:23 +08:00
    就写个爬虫而已,都开始怀疑自己能力了,建议先熟悉下 web 接口的一些规范,json/graphql 等等,html/css/js 也是。
    feiniu
        15
    feiniu  
    OP
       2020-09-25 19:08:53 +08:00
    @helloworld2010 有过一年的前后端开发经验的。这个淘宝这个风控是真的牛皮......
    v2hh
        16
    v2hh  
       2020-09-25 20:20:19 +08:00   ❤️ 5
    不要爬,真是经历,一个朋友公司爬的淘宝直播数据,他写的那部分代码,现在还在派出所,已经快有半个月了,公司老板目前还没事。
    zixianlaiye
        17
    zixianlaiye  
       2020-09-25 20:21:02 +08:00   ❤️ 6
    这种任务也是 nb,天猫的风控你要是这么容易写一个自动化爬取的,阿里那帮人的工资白开了
    sixway
        18
    sixway  
       2020-09-25 20:44:01 +08:00
    这个需要高质量的代理池,不然是无解的。
    LiuJiang
        19
    LiuJiang  
       2020-09-25 20:45:58 +08:00
    这不赶紧跑,想啥。。。
    asdf2020
        20
    asdf2020  
       2020-09-25 20:46:11 +08:00
    记得淘宝系的最难抓取,有同事尝试是借了好多账号,然后控制频率才搞定,切换 IP
    HFX3389
        21
    HFX3389  
       2020-09-25 20:47:06 +08:00
    爬淘宝天猫说实话,就算能爬,也很难做自动化,分分钟风控,什么验证码就来了
    而且 爬虫写的好,牢饭吃到饱 可不是一句空话
    gou7ma7
        22
    gou7ma7  
       2020-09-25 22:06:22 +08:00 via Android
    @feiniu 当时杭州有个公司,在本站也是招聘的时候说 955,然后面试的时候给我说。刚去肯定会加班,然后我就没去。
    gouflv
        23
    gouflv  
       2020-09-25 22:14:27 +08:00 via iPhone
    确实不适合,换个正常的公司
    miku831
        24
    miku831  
       2020-09-25 23:51:54 +08:00 via Android
    @v2hh 太恐怖了,真就不管老板啊
    XD2333
        25
    XD2333  
       2020-09-26 00:01:25 +08:00
    不如去看看官方的接口,我记得这个你这个还是有的,没必要一个树上吊死。
    jon
        26
    jon  
       2020-09-26 00:16:05 +08:00
    建议跑
    TimeRain
        27
    TimeRain  
       2020-09-26 07:43:57 +08:00
    实在不行换个公司吧,离爬虫远点比较好,爬虫个人感觉是离监狱最近的地方,别和我说公开数据可以爬,只要不影响到别人的业务就行,因为最终解释权在人家公司那里,他说你有罪大概率逃不掉,他没说不能做也不要掉以轻心,说不定有些公司就是专门搞这种爬数据的人
    AJQA
        28
    AJQA  
       2020-09-26 08:48:07 +08:00   ❤️ 1
    headless chrome 加 上千个类似 aws lambda 他们总不能分辨是爬虫了吧?
    因为上千个 lambda 肯定会有很多 ip?
    headless chrome 真实浏览器?
    leafre
        29
    leafre  
       2020-09-26 09:59:32 +08:00
    难吗
    huai
        30
    huai  
       2020-09-26 19:45:42 +08:00 via iPhone
    所以爬取这种相当于公开的数据 也是违法?楼上可以证实?还是也是道听途说(提问
    efaun
        31
    efaun  
       2020-09-26 23:03:13 +08:00
    @huai #30 IT 界的万能罪“破坏计算机信息系统罪”了解一下
    Curtion
        32
    Curtion  
       2020-09-27 10:39:21 +08:00
    @huai #30 爬取有反扒机制或者有 Robots 协议的网站都是犯法的。
    huai
        33
    huai  
       2020-09-27 12:04:16 +08:00 via iPhone
    @efaun 根据《中华人民共和国刑法》第二百八十六条规定,破坏计算机信息系统罪是指违反国家规定,对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的行为

    那估计爬虫 ddos ?
    huai
        34
    huai  
       2020-09-27 12:04:50 +08:00 via iPhone
    @Curtion 反扒机制这个怎么算?有一些可能就是很轻松
    Curtion
        35
    Curtion  
       2020-09-27 12:15:09 +08:00
    @huai #34 我说的反扒机制指的是:网站有故意设立的反扒机制,如果你尝试绕过这个机制去爬取数据就有一定风险,上面我说的它犯法不准确,因为没有法律明文,不过有风险是肯定的,因为有过判刑案列。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   914 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:44 · PVG 05:44 · LAX 13:44 · JFK 16:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.