V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  V2EX

致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学

  •  
  •   Livid · 2014-12-10 16:38:37 +08:00 · 7489 次点击
    这是一个创建于 3636 天前的主题,其中的信息可能已经有所发展或是发生改变。
    抱歉我们现在用的机器还不够高大上,你的这种爬法,确实会影响到目前我们网站的访问质量。

    所以,只能把你的 10 几个 IP 全部封了。

    今天早些时候,我们还封了 YisouSpider 的另外 10 几个 IP。

    我可以理解你们想要从这里开采资源的心情,但是就算是开采,请用一些可持续的方式。不可持续的方式,是在浪费所有人的时间和你的资源。

    36 条回复    2014-12-17 23:28:44 +08:00
    abelyao
        1
    abelyao  
       2014-12-10 16:41:28 +08:00
    抵制一切爬站采集的行为!
    我愿意在 v2ex 发帖交流,但我不愿意我发表的内容,被复制到一个我不知道的网站去!
    Livid
        2
    Livid  
    MOD
    OP
       2014-12-10 16:43:48 +08:00
    @abelyao 我们的回复一直在被很多网站用各种方式搬运。

    不过,这些用偷懒的方式做起来的东西,一般都无法持续。

    Karma 上的瑕疵,会让任何一件事情都很难持续。
    tinyhill
        3
    tinyhill  
       2014-12-10 16:45:15 +08:00
    被爬了说明有价值,只能这么安慰自己。
    whicily
        4
    whicily  
       2014-12-10 16:46:26 +08:00
    @Livid 请问一下 v2ex 是如何 block ip 的,iptables 么?
    kurtrossel
        5
    kurtrossel  
       2014-12-10 16:48:20 +08:00
    爬到数据也不会珍惜的,真能发掘出更大价值也算,各种滥用
    Devin
        6
    Devin  
       2014-12-10 16:49:49 +08:00
    @Livid good job!
    abelyao
        7
    abelyao  
       2014-12-10 16:50:07 +08:00
    @Livid 真蛋疼,这些站就该倒闭光了才好。
    之前在自己的网站 或 cnblogs 写过几篇热门博客,也都 “被发表” 到一些大论坛大网站去,有些好点的在角落里留个署名,大多数什么来源都没标注。
    kmvan
        8
    kmvan  
       2014-12-10 16:50:15 +08:00 via Android
    這并发略吊…

    话说Karma是…?
    jiang42
        9
    jiang42  
       2014-12-10 16:53:15 +08:00
    就是说之前v2ex不稳定是爬虫的原因?
    mortal
        10
    mortal  
       2014-12-10 17:09:51 +08:00
    @kmvan 业?
    herozzm
        11
    herozzm  
       2014-12-10 17:30:32 +08:00
    这个爬虫不合格啊,这个密集采集,都会被管理员K的
    Showfom
        12
    Showfom  
       2014-12-10 17:31:52 +08:00
    这爬虫太明显了吧。。。。
    learnshare
        13
    learnshare  
       2014-12-10 17:34:02 +08:00
    垃圾站:我们不生产内容,我们只是内容的搬运工。

    互联网的内容不应该复制来复制去,有必要的话,一个链接过来就好了。<a> 不是互联网的核心?
    lincanbin
        15
    lincanbin  
       2014-12-10 17:43:30 +08:00
    这写爬虫都不知道换个baiduspider的header
    xieguobihaha
        16
    xieguobihaha  
       2014-12-10 17:55:09 +08:00
    good job
    abelyao
        17
    abelyao  
       2014-12-10 18:31:53 +08:00
    @kmvan @mortal @raincious
    话说有这么高大上的含义吗…?
    我的理解还是简单的 “前因后果” 之类的,例如接上老大那句话就是 “根源上的瑕疵,会让任何一件事情都很难持续。”
    matrix67
        18
    matrix67  
       2014-12-10 18:57:39 +08:00 via Android
    不过贵站那个收藏回复值应该开放出来
    Livid
        19
    Livid  
    MOD
    OP
       2014-12-10 19:02:29 +08:00
    @matrix67 收藏回复值是指什么东西?
    Ansen
        20
    Ansen  
       2014-12-10 19:46:38 +08:00
    @abelyao 通俗点就是节操……
    matrix67
        21
    matrix67  
       2014-12-10 20:03:32 +08:00 via Android
    @Livid 我就感觉发现历史沉淀有价值信息很难发现。有没有系统的方法得到某一帖子多少人收藏这类的信息?

    以此还可以计算帖子的价值。
    Livid
        22
    Livid  
    MOD
    OP
       2014-12-10 20:04:12 +08:00
    @matrix67 明白了 :)
    mringg
        23
    mringg  
       2014-12-10 20:11:53 +08:00 via Android
    @matrix67 matrix67大侠?
    matrix67
        24
    matrix67  
       2014-12-10 20:17:30 +08:00 via Android
    不是 ╯﹏╰ 哎,不用这个小号了。
    aheadlead
        25
    aheadlead  
       2014-12-10 20:25:01 +08:00
    @matrix67 再次膜拜Matrix67大神(假装我不知道)
    lifechan
        26
    lifechan  
       2014-12-10 20:52:31 +08:00
    国内环境如此,比技术比创意,都是在比剽窃,不脚踏实地早晚掉到深沟。
    v2014
        27
    v2014  
       2014-12-10 22:06:45 +08:00
    @Livid http://v2ex.com/my/nodes/sorted ,打印traceback了
    vincentqi
        28
    vincentqi  
       2014-12-10 23:00:58 +08:00
    @Livid 贵站的收藏已经是一个不小的功能了,如果在收藏的同时能够打标签就好了,要不然收藏的多就不好找了。
    MonkLuf
        29
    MonkLuf  
       2014-12-11 00:48:27 +08:00 via Android
    @v2014 再次发现一个用tornado写网站的站点,好激动!
    MonkLuf
        30
    MonkLuf  
       2014-12-11 00:50:34 +08:00 via Android
    @Livid 这么高的并发量应该不是个人所为吧
    ericls
        31
    ericls  
       2014-12-11 00:52:09 +08:00 via Android
    有一天我发现我的博客全部发到了百度文库 还分好了类 排好了版
    karma
        32
    karma  
       2014-12-11 09:17:36 +08:00
    咋感觉....躺枪_(:з」∠)_....
    mengzhuo
        33
    mengzhuo  
       2014-12-15 20:32:18 +08:00 via iPhone
    @MonkLuf 买十台do的机子 爬个几天就差不多了 个人也可以哈哈哈
    MonkLuf
        34
    MonkLuf  
       2014-12-17 10:00:49 +08:00
    @mengzhuo do在国外的话,速度快不起来啊,应该不会选择do吧?另:有vps推荐吗?或者do的哪些区域在中国访问会快一点?
    mengzhuo
        35
    mengzhuo  
       2014-12-17 10:11:47 +08:00
    @MonkLuf
    DO 在国外 问题是V2也在国外啊,如果挑美国的机子,速度更是快
    MonkLuf
        36
    MonkLuf  
       2014-12-17 23:28:44 +08:00
    @mengzhuo
    @Livid

    v2为什么选择将机器放在美国呢?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1112 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:44 · PVG 02:44 · LAX 10:44 · JFK 13:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.