V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
suanbing
V2EX  ›  程序员

爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?

  •  
  •   suanbing · 2020-04-25 20:53:03 +08:00 · 17063 次点击
    这是一个创建于 1659 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在谈的外包项目,有几个是爬虫的。

    犹豫要不要接。今年接活很难,想挣点钱。

    但现在好像爬虫项目都有一定的风险。
    85 条回复    2022-02-25 18:31:53 +08:00
    wellsc
        1
    wellsc  
       2020-04-25 21:09:20 +08:00   ❤️ 1
    标题党
    AngryMagikarp
        2
    AngryMagikarp  
       2020-04-25 21:11:13 +08:00
    如果抓的是公开数据,没有用什么漏洞,应该没问题
    also24
        3
    also24  
       2020-04-25 21:13:13 +08:00   ❤️ 1
    我还蛮喜欢爬虫类的事儿的,与人斗其乐无穷~
    iasuna
        4
    iasuna  
       2020-04-25 21:17:04 +08:00   ❤️ 4
    爬虫在绝大部分情况下不会被追责
    但不代表是安全的 请考虑万一被抓的后果

    你有犯罪记录意味着:
    不会被任何正规企业聘用
    在火车站,机场等公共场所受到额外的治安检查
    在新的社区落户时,受到重点关注和审查
    在身边出现盗窃 抢劫等各种案件时 受到重点审查
    无法提供无犯罪记录 即无法移民

    等等

    请慎重考虑再做决定。。
    Rxianbei
        5
    Rxianbei  
       2020-04-25 22:33:07 +08:00   ❤️ 3
    刑法明确规定:服刑人员出狱一切权利等同一般公民,享有就业不受歧视的权利。
    (实际生活中不一定)
    linxl
        6
    linxl  
       2020-04-25 22:40:13 +08:00
    那得看对方损失咋样了
    oxogenesis
        7
    oxogenesis  
       2020-04-25 22:41:09 +08:00
    应该有一类数据,一旦发布就是对所有人公开的

    已经有一类数据,一旦发布就是对所有人公开的

    可以随便爬
    Whsiqi
        8
    Whsiqi  
       2020-04-25 22:44:53 +08:00 via Android
    @Rxianbei 刑法有这一条?很多地方都明确规定不行
    CoderGeek
        9
    CoderGeek  
       2020-04-25 23:22:19 +08:00   ❤️ 1
    最近自己也想爬点需要的 - - 瑟瑟发抖
    herozzm
        10
    herozzm  
       2020-04-25 23:33:07 +08:00 via Android
    富贵险中求
    daquandiao2
        11
    daquandiao2  
       2020-04-25 23:50:48 +08:00   ❤️ 2
    @Rxianbei 实际生活一定不。 体制内的工作都要有无犯罪证明记录的吧,他们自己不都歧视了
    Mobai497
        12
    Mobai497  
       2020-04-26 00:11:13 +08:00   ❤️ 2
    @Whsiqi
    @Rxianbei 纠正一下,是《监狱法》第 38 条 "刑满释放人员依法享有与其他公民平等的权利。"
    zictos
        13
    zictos  
       2020-04-26 02:09:58 +08:00
    之前爬取头条的内容被抓的人判的理由中有一条是:
    为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。

    意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。
    Symo
        14
    Symo  
       2020-04-26 02:14:18 +08:00
    @oxogenesis 只是假设, 爬虫脚本并发太高把源站爬挂了, 也是有责任的.
    taizhenhua1987
        15
    taizhenhua1987  
       2020-04-26 08:41:00 +08:00
    @zhybzc 头条的数据不是爬来的吗?难道现在已经不是了?
    oxogenesis
        16
    oxogenesis  
       2020-04-26 08:43:52 +08:00
    @Symo
    我说的是区块链数据,自身就有被传播的需求
    个体产生的数据,只是放在中心网站,
    如果个体将自己产生的数据,放在区块链上,就会产生大量我说的全公开数据
    这是一个需要解放数据源头的问题
    https://oxo-chat-server.com/bulletin/7EF130F346F803D365B534186343891E
    murmur
        17
    murmur  
       2020-04-26 08:46:54 +08:00
    @zhybzc 最后判的理由是你爬的太多浪费了别人价值 2w 的带宽。。。
    iyiluo
        18
    iyiluo  
       2020-04-26 09:06:30 +08:00   ❤️ 1
    一般别爬的太过分,不去爬别人商业化的接口,谁管你啊
    815979670
        19
    815979670  
       2020-04-26 09:20:15 +08:00
    去爬 91 这种本身就违法的网站 是不是不会被追责?
    drackzy
        20
    drackzy  
       2020-04-26 09:27:43 +08:00
    爬的越快 坐牢越快
    mmixxia
        21
    mmixxia  
       2020-04-26 09:31:21 +08:00
    风险很大
    flyz
        22
    flyz  
       2020-04-26 09:32:36 +08:00 via Android
    @Rxianbei 很多公司要开无犯罪证明
    hevi
        23
    hevi  
       2020-04-26 09:42:18 +08:00
    。。。我写爬虫都是爬盗版网站的,而且爬来也不商用
    7654
        24
    7654  
       2020-04-26 09:43:28 +08:00
    数据需要帐号登录才能获取的,都可以算 XXX
    Vegetable
        25
    Vegetable  
       2020-04-26 09:44:29 +08:00
    @hevi #22 这不就是小说盗版网站互相爬吗哈哈
    binux
        26
    binux  
       2020-04-26 09:57:42 +08:00   ❤️ 1
    在美国做爬虫,我们都会和客户签免责协议,说是代客户爬,客户自行承担风险。
    我是没怎么听说在美国,爬虫程序员有什么风险,EFF 还帮站台呢。
    再说了具体实施也是印度人做的,怕啥。

    不过我们也没有做中国市场,一来中国的反爬技术自成一体,还没有下定决心投入;二来我也怕刚下飞机就被扣了。
    fank99
        27
    fank99  
       2020-04-26 10:01:02 +08:00
    爬国外网站的公开信息路过。。
    zdnyp
        28
    zdnyp  
       2020-04-26 10:28:47 +08:00
    害,干会计做个内外帐要是想查你你也得进去,看清红线
    Cmdhelp
        29
    Cmdhelp  
       2020-04-26 10:46:25 +08:00
    兄弟,国内盗版泛滥都还没治理好呢,谁去管爬虫呢。。。。。。。。。。。。。。。除非你给人造成巨大损失,或者非法获取数据,不然还是没人管的
    jdgui
        30
    jdgui  
       2020-04-26 10:50:27 +08:00   ❤️ 1
    @Cmdhelp 关键是你是外包的,你爬了数据之后,你也不知道人家怎么用你的数据。。
    licoycn
        31
    licoycn  
       2020-04-26 10:50:44 +08:00
    应该是不要通过手段绕过别人的限制就可以,即目标站点的数据本身就是公开访问的,换种说话,就是你用爬虫来代替你的手工操作,如果你的频率过高,那就相当于 CC 攻击了
    Cmdhelp
        32
    Cmdhelp  
       2020-04-26 10:57:55 +08:00
    @jdgui 只要不包含公民隐私信息,基本没啥问题,如果有这些,那出事了 都别想跑
    winnerczwx
        33
    winnerczwx  
       2020-04-26 10:58:57 +08:00 via iPhone
    @licoycn 比较在意改 ua 算不算绕过限制
    iConnect
        34
    iConnect  
       2020-04-26 11:00:46 +08:00 via Android
    @zhybzc 伪造 referrer 爬取文件,也算违规吗?
    anxiousPumpkin
        35
    anxiousPumpkin  
       2020-04-26 11:36:13 +08:00
    我之前爬过一些电影网站的信息,速度太快了 ip 就会被暂时禁用。
    我在想如果你把爬取频率降下来再加上这些信息本身就是公开的,应该也没人管你吧。
    zictos
        36
    zictos  
       2020-04-26 14:08:38 +08:00
    @taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
    zictos
        37
    zictos  
       2020-04-26 14:10:55 +08:00
    @murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做
    zictos
        38
    zictos  
       2020-04-26 14:13:52 +08:00
    @iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
    fancy111
        39
    fancy111  
       2020-04-26 14:17:52 +08:00
    这个真不好说,企查查靠爬虫都能起家,有的爬着爬着到监狱了。。。
    tabris17
        40
    tabris17  
       2020-04-26 14:23:02 +08:00   ❤️ 1
    @zhybzc 伪造 UA 要坐牢的话,除了 Firefox,所有浏览器作者都要坐牢了——Mozilla/5.0 (xxxxxx)
    abcbuzhiming
        41
    abcbuzhiming  
       2020-04-26 14:27:01 +08:00
    @zhybzc 你弄错了核心,核心是别人允许你爬了吗?没允许你爬,你用任何方法爬都是错的。
    zictos
        42
    zictos  
       2020-04-26 14:30:11 +08:00
    @abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖
    zictos
        43
    zictos  
       2020-04-26 14:30:57 +08:00
    @abcbuzhiming 凭什么普通人就要被抓?
    zictos
        44
    zictos  
       2020-04-26 14:32:27 +08:00
    @abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。
    kiwier
        45
    kiwier  
       2020-04-26 14:40:50 +08:00
    @Cmdhelp 有人告你,就管了
    kakeiri
        46
    kakeiri  
       2020-04-26 14:43:34 +08:00
    钱到位,也值得
    evilic
        47
    evilic  
       2020-04-26 15:06:36 +08:00
    我的不知道算不算是爬……
    我就写了两个 py 脚本:一个脚本模拟键盘,随机间隔时间向浏览器发送 alt-d, ctrl-v, enter ;另外一个是 mitm 的脚本,把指定网址返回的数据直接加时间扔到 mongdb 里……
    evilic
        48
    evilic  
       2020-04-26 15:09:10 +08:00
    我还有另外一个操作,就是写了一个 chrome 插件,把网页里面的数据直接传到我自己服务器的接口上。
    接口也是直接加时间扔到 mongodb 里。
    JCZ2MkKb5S8ZX9pq
        49
    JCZ2MkKb5S8ZX9pq  
       2020-04-26 15:11:37 +08:00
    不是用什么技术的问题,是本身业务逻辑是否合法的问题。

    人家不给看的,有访问限制的,次数限制的,硬要大量获取,违法。
    人家给看的,但无视版权限制,拿来当成自己的去公开发布,违法。
    合法取得合法利用,应该就没太大问题。
    bzsh
        50
    bzsh  
       2020-04-26 15:11:41 +08:00
    @also24 我们抓携程的时候,抓到了招安链接
    bzsh
        51
    bzsh  
       2020-04-26 15:14:47 +08:00
    @zhybzc 这么说吧,那些 robot 协议禁止的,严格来说都有很大风险
    rockyou12
        52
    rockyou12  
       2020-04-26 15:18:15 +08:00
    其实就是有个美女穿得很少,但也不是你骚扰人家的理由。只要人家数据完全公开,我觉得都有风险
    libook
        53
    libook  
       2020-04-26 15:21:49 +08:00
    对相关法律不了解,不过如果爬虫犯法,那么是不是就不会出现公共搜索引擎行业,比如百度、谷歌、必应。

    个人看法是爬取公共信息没有问题,但不能违法其他方面的的法律规定:比如高并发致使源站满负载无法响应正常用户的请求、通过破解手段爬取源站明确禁止爬的数据、爬取的数据用于盗版等违法用途。

    要是真的担心风险,可以尝试咨询真正的律师,或者签署相关免责协议(如乙方提供的代码和程序不得用于任何违法用途)。
    newmlp
        54
    newmlp  
       2020-04-26 15:26:29 +08:00
    爬公共信息当然没有问题,另外就是不要产生严重后果导致对方报案
    won
        55
    won  
       2020-04-26 15:31:40 +08:00
    问题来了,爬军方服务器和直接入侵哪个性质更严重?
    wolfan
        56
    wolfan  
       2020-04-26 15:32:45 +08:00
    法律学的好,虫子写的好。
    abcbuzhiming
        57
    abcbuzhiming  
       2020-04-26 16:03:20 +08:00
    @zhybzc 没错啊,大公司爬啊,问题是大公司手上有的资源你有吗,人家背后的律师团队,你有吗?天眼查是商务部国家中小企业信息化推进项目的指定企业,人家拿信息是官方钦定,你有吗?
    abcbuzhiming
        58
    abcbuzhiming  
       2020-04-26 16:05:39 +08:00
    @zhybzc 因为人类就是社群动物,全世界都是有组织的干翻没组织的,组织强的干翻组织弱,你一普通人欢迎去西方挑战一下大企业,看看人家大企业的律师团队如何花式吊打普通人。
    凭什么普通人就要被抓?这个问法当真可笑
    abcbuzhiming
        59
    abcbuzhiming  
       2020-04-26 16:08:32 +08:00
    @zhybzc 因为携程是大型企业,所以他如果违规,最多罚个款,退钱,下次不干了,就了了,不公平是吧?对,但是全世界的大企业大公司都有这特权,天然就能抵一部分罪,除此以外还有企业干很多事的税率都比普通人低。你以为为什么无论国内国外那些真正有想法的人都削尖脑袋去办企业开公司?光是为了赚钱吗?
    zjx1993
        60
    zjx1993  
       2020-04-26 16:10:36 +08:00
    爬 pornhub 会有人管吗?谁有好用的 pornhub 爬虫
    whasyt
        61
    whasyt  
       2020-04-26 16:20:11 +08:00
    基金、资产 的一些公开信息会违法吗,一天一次或者两次的频率
    wudalang123
        62
    wudalang123  
       2020-04-26 16:36:05 +08:00
    我发布一条信息,有意的可以联系我,我们公司有爬数据项目,跟上游公司有协议,不用担心风险,如果你还是担心,不留任何纸面的内容,只以技术咨询的名义就行,有意的 加我 v:507693411,注明来自 v2ex,详细内容和项目 v 里谈或者电话沟通
    pkoukk
        63
    pkoukk  
       2020-04-26 16:40:54 +08:00
    密码法了解一下,刚刚实行
    如果你爬的是公开数据还好,但如果你通过逆向之类的手段,获取到了对面接口需要的 key 或者签名方法,来伪造请求的话,是妥妥违法的行为了
    marcong95
        64
    marcong95  
       2020-04-26 16:56:50 +08:00
    @zhybzc #13 这个侯某的事情,之前有人爆过判决书写的 tt_spider 是头条内部程序,有人把内部程序拿出来了。法官不懂技术,看到什么伪造 UA 之类的以为是个很严重的东西就写判决书上了。
    zictos
        65
    zictos  
       2020-04-26 17:05:01 +08:00
    @marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。
    zictos
        66
    zictos  
       2020-04-26 17:12:18 +08:00
    @abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
    而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。
    我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。
    zictos
        67
    zictos  
       2020-04-26 17:18:37 +08:00
    @abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?
    zictos
        68
    zictos  
       2020-04-26 17:27:01 +08:00
    @abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
    你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。
    zictos
        69
    zictos  
       2020-04-26 17:30:22 +08:00
    @abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。
    ajaxfunction
        70
    ajaxfunction  
       2020-04-26 17:40:26 +08:00   ❤️ 1
    和百度报警抓用户有异曲同工之妙,
    你有没有违法和原告是谁关系很大,

    恐怕大家不清楚的是未婚小两口去酒店开房都是违法的,只是不追究而已

    严格立法,选择性执法,都是手段和工具而已,敢问就是寻衅滋事罪
    marcong95
        71
    marcong95  
       2020-04-26 17:47:07 +08:00
    @zhybzc #65 当时 v 站讨论这事情的帖子里面某个回复这么说的,判决书里面不写的话也无从考究。我当时想法也是跟你想得差不多。然后看到有人说是拿到了内部代码,何况这个侯某也是头条的前高管,所以我就姑且信着吧。。。毕竟这种事情事关审判流程、司法透明度、公信力之类的问题,也不是一时半刻能解决的。

    不管是爬虫还是爬墙还是 251,事件的被告,在事件发酵到最后也并不是完全清白的。所以这又陷入了那种诸如事实正义、程序正义的事情上。作为旁观者的我,似乎也看不清事实的真相。
    DoodleSit
        72
    DoodleSit  
       2020-04-26 17:49:29 +08:00
    能快速赚钱的方法都写在魔法书里。
    winglight2016
        73
    winglight2016  
       2020-04-26 19:02:04 +08:00
    @ajaxfunction 敢问就是寻衅滋事罪——看到这里我想起似乎今年又出了“筐”2.0 了,是个什么罪名来着?
    crella
        74
    crella  
       2020-04-26 19:24:55 +08:00 via Android
    一个是爬取一大一小两个招聘网站上的招聘信息,每天 8 点抓去一次;一个是爬取某冷门社区的热帖列表。都没有什么问题吧?

    连协程都没用,两个线程下载的。
    TimeRain
        75
    TimeRain  
       2020-04-26 23:11:39 +08:00 via Android
    天眼查那种公司后台背景很强,你个人爬虫很多时候小心点,最好是不要涉及这方面利益
    fansangg
        76
    fansangg  
       2020-04-26 23:24:48 +08:00
    爬虫还是很有趣的,看你爬些啥,怎么爬,自己在爬什么数据难道自己心里没点数吗?
    ChristopherWu
        77
    ChristopherWu  
       2020-04-26 23:34:22 +08:00
    https://github.com/YongHaoWu/NeteaseCloudMusicFlac 吓得我想把这个项目 Archive 删掉了。诸位给点建议- = -
    dengwen168
        78
    dengwen168  
       2020-04-27 08:58:55 +08:00
    嗯 ,先将刑法学好。再搞爬虫。。
    PbCopy111
        79
    PbCopy111  
       2020-04-27 11:30:56 +08:00
    海外注册公司,paypal 收款,爬吧。
    MengiNo
        80
    MengiNo  
       2020-04-27 11:42:34 +08:00
    看看朋友圈那么多 py 的广告,什么设计师用 py 爬取资源分分钟出几十张图。。。不如大力推广让他们先恰。。
    wmhx
        81
    wmhx  
       2020-04-27 12:27:00 +08:00
    看人家想不想搞你了, 想搞你随便什么理由都够你喝一壶的.
    我之前爬 jandan 的图片,2 年了斗智斗勇还挺好玩的,后来就直接把我的 IP 封了, 又换代理啊啥的, 感觉人家的耐心也是有限的, 早晚的事情, 于是乎就换了站,
    不过不盈利 也挺无聊的..
    denghp3
        82
    denghp3  
       2020-04-27 15:22:44 +08:00
    我有个 1024 的爬虫,要的私我
    emmo
        83
    emmo  
       2020-05-02 14:02:32 +08:00
    @wmhx 原来就是你啊,找你两年了。马上跟我们走一趟🐶
    dacapoday
        84
    dacapoday  
       2022-02-24 10:05:24 +08:00
    @wmhx 坏蛋
    yousabuk
        85
    yousabuk  
       2022-02-25 18:31:53 +08:00 via iPhone
    有钱有关系越爬越赚
    没钱没关系那就是应了“爬虫写的好,坐牢坐到老”
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2679 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 03:31 · PVG 11:31 · LAX 19:31 · JFK 22:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.