V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SQLException
V2EX  ›  程序员

阿里云发的公告:关于阿里云香港 Region 可用区 C 服务中断事件的说明

  •  
  •   SQLException · 2022-12-25 17:47:47 +08:00 · 9656 次点击
    这是一个创建于 685 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://mp.weixin.qq.com/s/rJ2_TEc9mDxfJ1q4gCN-Zg

    最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。稳定性是云服务的生命线,对我们的客户至关重要。我们将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性,不辜负客户所托!

    估计赔偿是有了,但是感觉对服务有点不放心了

    52 条回复    2022-12-27 23:34:00 +08:00
    mytsing520
        1
    mytsing520  
       2022-12-25 17:51:54 +08:00   ❤️ 6
    基础设施是别人的,应急预案几乎都使不上
    Ansen
        2
    Ansen  
       2022-12-25 18:07:36 +08:00 via iPhone
    阿里就国内不错,海外全是租设备,当二道贩子
    cveoy
        3
    cveoy  
       2022-12-25 18:40:35 +08:00   ❤️ 1
    阿里的道歉信为什么要用微信发?笑死
    wangxiaoaer
        4
    wangxiaoaer  
       2022-12-25 18:52:32 +08:00   ❤️ 2
    就想知道他那个服务状态页面是不是个摆设?
    janus77
        5
    janus77  
       2022-12-25 18:53:21 +08:00
    总结:温度太高了 空调也歇逼了 导致烧到冒烟死机
    zwnozhuce
        6
    zwnozhuce  
       2022-12-25 19:03:43 +08:00
    还是国际知名云厂商相对靠谱些, 比如 AWS
    x86
        7
    x86  
       2022-12-25 19:06:19 +08:00 via iPad   ❤️ 10
    @cveoy 可能他们觉得腾讯云稳定点吧🤔
    fay94
        8
    fay94  
       2022-12-25 19:37:34 +08:00   ❤️ 5
    @cveoy #3 有没有种可能,微信只是其中一个渠道?
    SQLException
        9
    SQLException  
    OP
       2022-12-25 19:41:29 +08:00
    @fay94 #8 自家好像也有
    https://help.aliyun.com/noticelist/articleid/1061819219.html
    但是我没找到入口在哪儿,搜标题搜到的
    salmon5
        10
    salmon5  
       2022-12-25 19:47:41 +08:00
    salmon5
        11
    salmon5  
       2022-12-25 19:49:21 +08:00
    picone
        12
    picone  
       2022-12-25 19:58:52 +08:00
    很好奇这些机房应该有买保险吧?有没有行内的人解释一下?
    simau
        13
    simau  
       2022-12-25 20:02:49 +08:00
    公告里面有提到要上线新的状态页,估计就是静态页面
    Yourshell
        14
    Yourshell  
       2022-12-25 20:14:06 +08:00
    阿里云的站内消息估计也就是发广告用的
    CFM880
        15
    CFM880  
       2022-12-25 21:00:57 +08:00
    我:720/744=0.967741935483871 , 本次事故属于低于 99%但等于或高于 95%,实例月度服务费的 25% 是吧
    https://status.aliyun.com/上面轻量云 18 号是可以用状态,但是事实上是不可用,https://sla.console.aliyun.com/ 上监控 SLA 受损的产品实例,不可靠,麻烦确认是不是上面的赔付等级
    阿里云:您好 :
    抱歉根据您反馈的记录确实无法直接确认,您可以次月第 5 个工作日后,您可以通过 https://sla.console.aliyun.com/ 查看相关记录并在线申请。对于给您带来的影响,我们再次向您表示歉意,感谢您的理解。


    看看能不能顺利申请到赔偿,这个 sla 上的监控估计是没有监控到不可用的时候,看看还要不要自己举证
    qq723985066
        16
    qq723985066  
       2022-12-25 21:01:41 +08:00
    我想问下为啥还能启动喷淋,是没人敢关机么,那天么的列头柜的喷了 以后问题更大
    cubecube
        17
    cubecube  
       2022-12-25 21:16:32 +08:00
    @qq723985066 我怀疑喷淋是消防系统,和空调系统没有互通。以为火灾了。。
    Tyuans
        18
    Tyuans  
       2022-12-25 21:19:37 +08:00
    之前上课老师说机房都没有防火喷头的,说机器进水。看了 OVH 的火灾以为大家都这样,怎么阿里这真能给机器喷水...
    kiracyan
        19
    kiracyan  
       2022-12-25 21:46:30 +08:00
    @Tyuans 我看一般机房的消防系统都配的气体灭火,这阿里云居然直接淋水
    CapNemo
        20
    CapNemo  
       2022-12-25 22:11:14 +08:00
    猜测是机房里有人 /门开着,因此消防系统没有选择释放灭火气体而是启动了喷淋?
    mytsing520
        21
    mytsing520  
       2022-12-25 22:44:58 +08:00
    @janus77
    应为:制冷歇逼了,导致温度过高,然后后面一系列 GG 。
    zhs227
        22
    zhs227  
       2022-12-25 22:47:16 +08:00
    有一台轻量到第二天下午提了工单才恢复,但根据这个通告,19 号凌晨就恢复完了。表示呵呵
    KanVivii
        23
    KanVivii  
       2022-12-25 23:23:37 +08:00   ❤️ 1
    @picone DC 给客户提供的 Colocation Cage/Cabinet 业务是包含 SLA 的,其中包括了电力,空调,安全等等的保障范围

    所以非不可抗力情况下出现故障,DC 也是会赔偿阿里云的。保险业务可能是针对火灾这种需要重建的
    ohmyzsh
        24
    ohmyzsh  
       2022-12-26 08:50:24 +08:00   ❤️ 1
    吹一万次,不如来一次事故,信赖 GG
    lyhiving
        25
    lyhiving  
       2022-12-26 09:20:54 +08:00
    国外业务远离阿里云或者将阿里云当备用才是最实在的。
    国内的也是尽量不要搞阿里云,出了名的套路云。然后之前宣传的 9 个九的保障,真的是渣渣。

    只有当你发工单他们才说故障中,否则,你在阿里云后台看到的是机器在黑洞中,状态页面是绿色的!!!!
    这个就是最恶心人的地方!
    salmon5
        26
    salmon5  
       2022-12-26 09:43:23 +08:00
    到目前为止,我认为能打的只有阿里云和 AWS 。试用过 azure.cn 云,难用。GCP 没账号没用过。其他的就不值一提了。
    likunyan
        27
    likunyan  
       2022-12-26 09:59:53 +08:00
    @lyhiving 我笑死, 阿里云他们直接不回我,11 个小时后才回我,说原因和赔偿。
    gezimonkey
        28
    gezimonkey  
       2022-12-26 10:28:42 +08:00
    根据《建筑设计防火规范》 GB50016 规定机房应设置自动灭火系统,并宜采用气体灭火系统。气体灭火系统中,常见的有七氟丙烷灭火系统、高压二氧化碳灭火系统、ig541 混合气体灭火系统等。

    这个喷淋的包间不合规了吧?要是咬着告,估计能告下不少钱或者人来
    cctv1005s927
        29
    cctv1005s927  
       2022-12-26 10:44:23 +08:00
    @cveoy 微信公众平台啊... 作为公众渠道之一,我觉得是正常的公关渠道吧?
    cctv1005s927
        30
    cctv1005s927  
       2022-12-26 10:49:55 +08:00   ❤️ 1
    @lyhiving
    国外业务首推还是 AWS 。

    但国内业务我与你的观点,恰恰相反,我的观点是,在基础设施这块,反而阿里云是国内最可以信赖的厂商,如果这次的业务没有受到香港事件的影响,那么国内的服务可靠度,包括 status page 都会得到进一步的增强,阿里云有别的厂家所没有的故障经验,我反而觉得下一次遇到这种大规模长时间故障的概率会更小了。
    unco020511
        31
    unco020511  
       2022-12-26 10:53:13 +08:00
    这个影响很大啊感觉
    sunhelter
        32
    sunhelter  
       2022-12-26 10:58:43 +08:00
    @gezimonkey 香港的机房,你这是国标
    securityCoding
        33
    securityCoding  
       2022-12-26 11:13:01 +08:00
    @unco020511 影响肯定大啊,澳门政务挂了多少服务
    AltairT
        34
    AltairT  
       2022-12-26 11:36:44 +08:00   ❤️ 3
    我通读了全文,感觉除了机房本身设施的问题,阿里的高可用设计本身也是有问题的。C 可用区不可用居然影响到其他可用区的服务了。
    aheadlead
        35
    aheadlead  
       2022-12-26 11:38:19 +08:00
    aws 那么多 livesite 没人提…
    qsnow6
        36
    qsnow6  
       2022-12-26 11:49:17 +08:00
    @AltairT #34 为了节省成本,估计部分设施是共用的
    aeli
        37
    aeli  
       2022-12-26 13:48:30 +08:00
    @gezimonkey 拿 GB 国标规范去香港告,搞笑么。
    gezimonkey
        38
    gezimonkey  
       2022-12-26 14:02:01 +08:00   ❤️ 1
    @aeli 去问了一下相关安防及消防行业的人,虽然他们也没接触过港标的项目,但说美标和欧标也都没有机房用喷淋灭火的,大概率是机房扩建占用了一个不合规的房间;就是想说里面可能会有不合规的事,引用 GB 只是找起来比较方便,不必揪着证明我有多无知......
    lyhiving
        39
    lyhiving  
       2022-12-26 14:35:04 +08:00
    @cctv1005s927
    国内还选阿里云的都是脑抽了或者之前业务结合得太深入。
    信我,阿里云不值得你作为首选,备份可以考虑下。鸡蛋不要放在一个篮子里。
    bjzhush
        40
    bjzhush  
       2022-12-26 16:03:03 +08:00
    @lyhiving 那你推荐个呗。。国内业务
    bjzhush
        41
    bjzhush  
       2022-12-26 16:03:43 +08:00
    通篇看下来阿里云的态度还是高高在上的,没有一点道歉的诚意,真是让人恶心
    cctv1005s927
        42
    cctv1005s927  
       2022-12-26 17:13:55 +08:00
    @lyhiving
    > 国内还选阿里云的都是脑抽了...

    在这点上,我觉得您可以在细化一点,比如说贵司在阿里云上有多少多少业务量,买了哪些服务,因为阿里云的什么问题,导致了大概多少损失,或者是阿里云的哪里问题,让我们作为开发者觉得不爽。

    这样,我们开发者在做决策购买云厂商服务的时候,可以根据您的经验避坑,您觉得呢?😄
    lyhiving
        43
    lyhiving  
       2022-12-26 17:58:13 +08:00
    @cctv1005s927 不知道你要怎么样的细化。
    比如 ECS 的,从经典网络到 VPC ,说转就转,完全不保留经典网络的选型。原因是内网攻击,是他们网络内部设计的缺陷,让我们不同主体间的通信变得异常复杂,后来上了 classicLink ,也是各种限制,各种掏钱。
    说到 RDS ,你见过 AWS 限制小内存了吗?一直都是开放购买。某里云就不是,现在谁可以新开 256M 的 RDS ?
    再说 OSS ,图片样式更换那一波,给开发者选型了吗?强硬改到 osss-style 格式下
    还有快照数量,镜像数量,9 个九的承诺(这次应该是只剩下 99.9 )。

    这次香港的事故你的私信收到通知了吗?有像 oneman 的 IDC 给你开个工单吐槽了吗?什么都没。尽量弱化,就是不承认错误。但是平时,推销的电话呢?一大堆。

    关键时刻看技术,我觉得最简单的,买云就是买技术!某里云卖的营销,这一个点就是本质区别。

    我并不是说阿里云不好,而是说,不要把它当做首选,特别是你有部分业务自研部分业务外包的情况下。

    目前而言,国内就是腾讯云,百度云(真的要吹爆,实力可以,邻居不吵)都是要比某里云好太多的选择。
    mytsing520
        44
    mytsing520  
       2022-12-26 18:17:24 +08:00
    HK GOV 的数据中心专题页面,对于数据中心的选址、建设等都有要求。
    这是一个总引导网页,涉及到不同的项目,如土地、建筑、电力、消防等,都有不同的专业部门负责跟进
    https://www.datacentres.gov.hk

    希望能有用
    cctv1005s927
        45
    cctv1005s927  
       2022-12-26 21:20:35 +08:00
    @lyhiving 感谢分享
    cnpil0txia
        46
    cnpil0txia  
       2022-12-27 04:30:06 +08:00
    原文“但影响了香港 Region ECS 管控服务( Control Plane )的正常使用”
    应为 Control Panel
    realpg
        47
    realpg  
       2022-12-27 07:33:33 +08:00
    香港机房 笑掉大牙
    喷淋都算好的了

    比狗窝 还是 80 年代内地农村狗窝条件还差的 IDC 机房,香港满天飞。。。
    litbin
        48
    litbin  
       2022-12-27 09:45:38 +08:00
    @cnpil0txia 这里 Control Plane 是指管控面,对应的还有 Data Plane 数据面
    shenkai600
        49
    shenkai600  
       2022-12-27 11:34:53 +08:00
    有无业内人士透露一下,机房里的这个喷淋设备是标配吗
    ervqq
        50
    ervqq  
       2022-12-27 16:37:41 +08:00
    垃圾佬狂喜,一个机房的大船准备靠岸
    cnpil0txia
        51
    cnpil0txia  
       2022-12-27 16:38:44 +08:00
    @litbin 对的,谢谢
    SQLException
        52
    SQLException  
    OP
       2022-12-27 23:34:00 +08:00
    @shenkai600 基本都是干粉灭火器,着火了人必须出去,然后会 boom~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2811 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:10 · PVG 08:10 · LAX 16:10 · JFK 19:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.