V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
herozzm
V2EX  ›  问与答

google 爬虫太疯狂了,屏蔽它又没排名,放开又被爬死,还不能控制它的爬取频率,怎么办?

  •  
  •   herozzm · 170 天前 · 2562 次点击
    这是一个创建于 170 天前的主题,其中的信息可能已经有所发展或是发生改变。
    google 爬虫爬起来真的就是 cc 攻击,以前的 google 的站长后台可以控制爬取频率,被下了,真是无语,在服务端 nginx 控制频率不理想,因为限制了 google 爬虫的频率,大部分时候是返回 502 ,google 站长后台就一直提示 502 ,不给排名
    22 条回复    2024-06-05 19:47:46 +08:00
    qqjt
        1
    qqjt  
       170 天前   ❤️ 2
    怎么能被 bot 爬死啊,这体量羡慕了
    dzdh
        2
    dzdh  
       170 天前   ❤️ 1
    同问。啥体量能让 bot 爬死。啥服务器配置啊。
    potatowish
        3
    potatowish  
       170 天前 via iPhone
    字节的 bot 才叫疯狂
    daohanghao
        4
    daohanghao  
       170 天前
    我都多来爬一下,你倒好,不需要。。。
    herozzm
        5
    herozzm  
    OP
       170 天前
    @qqjt
    @dzdh
    数据是即时的,爬虫真的很疯狂,每秒估计有上百的并发
    herozzm
        6
    herozzm  
    OP
       170 天前
    @potatowish 字节的反而不咋地,一天 10 个以内,流量根本没有
    darkengine
        7
    darkengine  
       170 天前
    谷歌一秒上百次的爬?什么站这么牛啊 。。。
    herozzm
        8
    herozzm  
    OP
       170 天前
    @darkengine 不是一个站,是几个站放在一台服务器,每个站 10 个左右,加起来的并发,他们共用 cpu 资源
    HackerQED
        9
    HackerQED  
       169 天前 via iPhone
    @herozzm 老哥,你考不考虑前端放 vercel 之类的托管平台,需要计算的再单独到你服务器?

    托管平台总不会爬挂了,看你本体流量也不是很大,不费钱。
    nomagick
        10
    nomagick  
       169 天前   ❤️ 8
    垃圾站是吧。。
    AlexRoot
        11
    AlexRoot  
       169 天前
    @nomagick #10 感觉一语道破。
    knva
        12
    knva  
       169 天前
    垃圾站能不能 414
    wonderfulcxm
        13
    wonderfulcxm  
       169 天前 via iPhone
    没经历的哥们很难想象,它是真的会很疯狂,我们网站也经历过,只能限制速率,不要返回 502 ,返回 503 。就一个新闻网站,有编辑团队和纸版杂志,不是什么垃圾站,话说这跟垃圾站有什么关系?
    rambeaufinal
        14
    rambeaufinal  
       169 天前
    不能升级一下服务器的配置吗?
    NewYear
        15
    NewYear  
       169 天前
    robots.txt 不是可以规定爬取频率么,实在觉得占用性能,搞缓存啊,静态化啊
    herozzm
        16
    herozzm  
    OP
       169 天前
    @NewYear robots.txt 不行啊,我加入了限制,google 站长后台直接提示 robots.txt 错误,你是什么格式呢?
    herozzm
        17
    herozzm  
    OP
       169 天前
    @wonderfulcxm 我将 503 改成 429 ,应该也没问题吧
    e3c78a97e0f8
        18
    e3c78a97e0f8  
       169 天前
    搞个 cache 呗,每次 GoogleBot 访问都给几分钟甚至几小时前的结果,这 CPU 利用率就能降下去了吧。
    linyongxin
        19
    linyongxin  
       169 天前
    如果可以,生成静态化或缓存,减少数据库读取
    nx6Ta67v2A43frV2
        20
    nx6Ta67v2A43frV2  
       169 天前
    在前面挂 1 个 cloudflare cdn 试试。
    oIMOo
        21
    oIMOo  
       169 天前
    OP 并没有回应关于“垃圾站”的回复 - -
    herozzm
        22
    herozzm  
    OP
       169 天前
    @oIMOo 看个人资料的网站,不是垃圾站
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4689 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:00 · PVG 12:00 · LAX 20:00 · JFK 23:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.