V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
consensus
V2EX  ›  问与答

问下, Python 爬取指定网站,怎么样才算是违法的 ?

  •  
  •   consensus · Feb 23, 2024 · 1426 views
    This topic created in 795 days ago, the information mentioned may be changed or developed.

    自学 python ,爬取了一下这个网站 https://www.boohee.com/food , 然后几分钟过去了,看还没结束,就点暂停了,这算不算违法了 ?有点懵 频率:在获取食物详情的时候,一秒一下请求

    LeegoYih
        1
    LeegoYih  
       Feb 23, 2024
    Eiden
        2
    Eiden  
       Feb 23, 2024
    这撑死几千条吧, 别人未必能发现, 但是你拿去盈利就不好说了
    mumuuu
        3
    mumuuu  
       Feb 23, 2024   ❤️ 1
    https://www.boohee.com/robots.txt
    先看下这个文件
    然后不要大流量导致他网站受到影响
    不要使用他有版权的内容盈利
    最主要的,他不报警就不犯法
    14v45mJPBYJW8dT7
        4
    14v45mJPBYJW8dT7  
       Feb 23, 2024
    灵活违法
    consensus
        5
    consensus  
    OP
       Feb 23, 2024
    @LeegoYih @mumuuu
    看了下 我请求的是 /shiwu/*,路径下的,好像并不在 Disallow 的范围内
    谢谢 🙏

    @Eiden
    不会盈利的,只是弄着玩的
    isSamle
        6
    isSamle  
       Feb 23, 2024
    1.搞个 IP 代理池 2.降低采集频率,那你不说谁知道,有些事情是可以做不可以说的
    consensus
        7
    consensus  
    OP
       Feb 23, 2024
    @isSamle 感谢,了解了 /doge
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1022 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 22:03 · PVG 06:03 · LAX 15:03 · JFK 18:03
    ♥ Do have faith in what you're doing.