Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
willakira
V2EX  ›  云计算

Amazon S3 的事故报告出来了… Typo…

  •  
  •   willakira · Mar 3, 2017 · 7687 views
    This topic created in 3384 days ago, the information mentioned may be changed or developed.

    https://aws.amazon.com/message/41926/

    At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

    20 replies    2017-03-04 11:37:11 +08:00
    holyghost
        1
    holyghost  
       Mar 3, 2017   ❤️ 1
    不知道这哥们要看多少个小时的无聊小视频
    XiaoFaye
        2
    XiaoFaye  
       Mar 3, 2017
    很难想象这种批处理命令不需要 Review 。。。
    acoder2013
        3
    acoder2013  
       Mar 3, 2017
    Amazon 的工程师也是 just so so 啦, 23333333
    just4test
        4
    just4test  
       Mar 3, 2017
    所以删除服务器这种事没有机器人管么?
    '''
    操作被拒绝。该操作将影响以下子系统:
    索引子系统: 30%容量被移除,余下容量不足以支撑线上压力
    放置子系统: 20%容量被移除,余下容量不足以支撑 N+1
    要强制执行此命令,使用 --fuckyou 参数重试。
    '''
    vus520
        5
    vus520  
       Mar 3, 2017
    @just4test 想不到 aws 跟我渣司的程序员一样,看着不爽就是一顿潇洒任意的 rm
    stevele
        6
    stevele  
       Mar 3, 2017
    那也得用啊
    nealfeng
        7
    nealfeng  
       Mar 3, 2017
    @just4test

    第一次会仔细看,以后就不会那么仔细了。比如用 sudo 命令的时候。
    21grams
        8
    21grams  
       Mar 3, 2017
    命令输错了? 难道不应该做成脚本吗?
    vingz
        9
    vingz  
       Mar 3, 2017
    并不能所有的维护过程都变成自动化啊
    billlee
        10
    billlee  
       Mar 3, 2017
    r#8 @21grams 用了脚本, using an established playbook, 还是错了
    eyp82
        11
    eyp82  
       Mar 3, 2017
    应该是用了 ansible 之类的东西
    bingwenshi
        12
    bingwenshi  
       Mar 3, 2017
    @21grams 用了脚本,但是参数写错了
    okampfer
        13
    okampfer  
       Mar 3, 2017
    尤记得上次 gitlab 的 rm -rf /
    matrix67
        14
    matrix67  
       Mar 3, 2017
    playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。
    vindurriel
        15
    vindurriel  
       Mar 3, 2017
    >> Removing a significant portion of the capacity caused each of these systems to require a full restart
    应该有办法改进吧
    121121121
        16
    121121121  
       Mar 3, 2017
    @holyghost 为什么要看视频?
    holyghost
        17
    holyghost  
       Mar 3, 2017
    @121121121 gitlab 那哥们就看了
    taowen
        18
    taowen  
       Mar 3, 2017
    说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢
    donghui
        19
    donghui  
       Mar 4, 2017 via iPad
    一不小心就删错
    xiaq
        20
    xiaq  
       Mar 4, 2017 via iPad   ❤️ 1
    这里的 Playbook 指的应该是事故处理的手册
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5055 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 80ms · UTC 09:41 · PVG 17:41 · LAX 02:41 · JFK 05:41
    ♥ Do have faith in what you're doing.