V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
nciyuan
V2EX  ›  问与答

感觉腾讯云这次可能就是吹牛大了,无他

  •  
  •   nciyuan · Aug 7, 2018 via Android · 4626 views
    This topic created in 2824 days ago, the information mentioned may be changed or developed.

    这几天 QQ 云服火了,不过云硬盘真心不可能那么牛逼,我刚才浏览了一下 QQ 云服的网站 yun.qq.com 发现有些真的挺好玩的 首先是连接智能未来的拳头产品,

    https://www.qcloud.com/product/cvm

    宣称

    CVM 提供达 99.95 %的服务可用性和 99.9999999% 的数据可靠性。

    七个九,也就是有 0.0000001% 的数据损坏性,十亿分之一,也就是一乘十的负九次方,相当于告诉你差不多 1TB 可能会损失一字节。但是转到

    https://www.qcloud.com/product/cbs/

    之后就好玩了。上面说 云硬盘中的数据自动地在可用区内以多副本冗余方式存储,避免数据的单点故障风险,提供高达 99.9999999% 的数据可靠性。 然后下面就写着

    CBS 的数据复制机制高于业内平均水平,能够保证任何一个副本故障时快速进行数据迁移恢复,数据可靠性高达 99.999999%,以保护您的应用程序免受组件故障的威胁。

    少了一个九。然后他们的三硬盘备份还是跨机架的。如下图,取自 CBS 介绍页面->常见问题->云硬盘简介->云硬盘的优势影片

    IMG_20180807_164148.jpg

    然后呢这个取自 CBS 介绍页面->入门->视频教程->多副本冗余影片

    IMG_20180807_165014.jpg IMG_20180807_165101.jpg

    所以说,当写请求在处理过程中,备份盘和主盘不仅要三盘完全一致,还要都写完才能返回写入 OK。同时在图中,这几块硬盘是跨机的,所以说数据应该会有极高的安全性。但是我又去看了腾讯发布的声明,

    前沿数控平台一块操作系统云盘,因受所在物理硬盘固件版本 bug 导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

    他们说只坏掉一个盘,一块哦

    腾讯云监控到异常后,第一时间向用户告知故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。遗憾的是,虽经多方努力,最终仍有部分数据完整性校验失败。

    所以说,1TB 丢一字节的高可用性,最终丢了数据叫一部分。可是呢,三个跨机架,数据完全一致的其它盘呢?难道不同机架用了同一厂商,同一固件,同一 BUG 的盘?而且这个静默错误是

    经过分析,该硬盘静默错误是在极小概率下被触发。

    然而在腾讯云的三个机柜中,该 bug 同时被触发了。 最后,向大家推荐腾讯云稳成狗的数据中心,就应该是天津腾讯云了,名曰北京一区,号称亚洲最大的数据中心,承载 QQ 微信等腾讯北方地区全部业务,经受滨海大爆炸,号称水漫金山都不怕,稳如狗

    16 replies    2021-01-13 20:11:44 +08:00
    nciyuan
        1
    nciyuan  
    OP
       Aug 7, 2018 via Android
    哈,国内一众云都敢自称 99.5/6/7 个 9,国外大多 2/3 个
    keinx
        2
    keinx  
       Aug 7, 2018
    看你上面的图片 3 腾讯云也是先写入主盘,然后以同步的形式同时同步给两个复盘的。
    如果按照腾讯云官方的回复出问题的那块硬盘是主硬盘,主硬盘写入的数据和读取的数据不一致那么腾讯云主盘写入 0,读取 1,并且把 1 同步给两个完好的复盘,这个时候从三个硬盘读取出来的数据都是 1,而不是写入的 0,所以数据就真的丢失了。

    想知道目前有什么更好的办法去最数据冗余?
    binghe
        3
    binghe  
       Aug 7, 2018
    如何证明腾讯确实有三副本存储?
    如果无法证明三副本,那么是不是存在虚假宣传?
    假如,我是说假如是虚假宣传,那么。。。
    ZE3kr
        4
    ZE3kr  
       Aug 7, 2018
    Re #1

    + AWS S3 (云存储)可用性: 99.99%(年度)/ 持久性 99.999999999 %( 11 个 9 )
    + GCS Regional Storage (云存储)可用性: 99.99%(月度)/ 持久性 99.999999999%( 11 个 9 )
    各家云存储差不多都是这个标准

    + AWS EBS (磁盘)可用性 99.999%,没找到持久性
    + GCP 磁盘没有找到可用性和持久性
    Tink
        5
    Tink  
    PRO
       Aug 7, 2018 via iPhone
    腾讯云的意思就是说的二楼的意思
    ys0290
        6
    ys0290  
       Aug 7, 2018 via iPhone
    其实我觉着,这些个 9 都是不敢写 1 的时候随便写出来的
    swulling
        7
    swulling  
       Aug 7, 2018   ❤️ 1
    @keinx 数据都会加 checksum,如果因为读取错误,那么这个副本就不会通过 checksum,直接丢弃

    这个是绝大部分分布式存储的的设计,腾讯不可能犯这个低级错误
    swulling
        8
    swulling  
       Aug 7, 2018   ❤️ 2
    @ZE3kr 不一样
    AWS S3 是 Object Storage,对象存储,对象存储的成本较低,一般采用异地冷备的方式进行数据备份,所以可靠性可以做的很高

    AWS EBS 以及这次出事的 腾讯 CVM 是块存储,Block Storage,一般用来挂来做系统盘、数据盘的。因为数据 IO 性能要求比较高,加上数据的变动比较频繁,一般不做全量的冷备,所以都无法承诺高可靠。
    keinx
        9
    keinx  
       Aug 7, 2018
    @swulling
    不太懂运维方面的东西,谢谢科普
    请教一个知识,如何从业务层就把数据同步存储到 2-3 个不同的云服务提供商。是用户发送并发请求?
    maemolee
        10
    maemolee  
       Aug 7, 2018
    只要没出过事儿,就没人能证伪,自然是疯狂放卫星。
    一出事儿就完蛋了。
    llxe2v
        11
    llxe2v  
       Aug 7, 2018
    看了腾讯 PR 稿,貌似没有说 3 重备份的事情。希望之后能出来解释一下。
    iConnect
        12
    iConnect  
       Aug 7, 2018 via Android
    普通用户对于三份副本的理解确实是一份数据 copy 三份,三份啊,多安全,平时自己最多用移动硬盘 copy 一份。问题是移动硬盘 copy 的那份才是真安全(冷数据离线备份),线上的三份副本都是热数据,快照和镜像,甚至异地跨机房,跨服务商才是真的安全策略。厂家宣传有意无意的误导了,然而基本功并没有过硬,客户也是水的很。确实算是极偶然的 bug,让双方短裤都露出来了
    swulling
        13
    swulling  
       Aug 7, 2018   ❤️ 1
    @keinx 一般有两种方式
    1. 中间加一个 Proxy 层,所有的数据存储先到 Proxy,由 Proxy 控制双写或者多写到不同的后端存储。这样 Proxy 就屏蔽了后端存储的细节,它会自动做 failover 等工作。上层 RD 就专注于业务就行

    这种方式效果最好,但是增加了 Proxy 层增加了很大的开发成本,而且 Proxy 要做的事情很多,包括后端云存储故障的屏蔽,云存储丢失数据后数据的同步等。


    2. 直接写到其中一个存储上,其他存储同步该存储,一般是定时同步

    这种方式成本最小,但是缺点是如果主存储失效,故障处理比较麻烦。
    nciyuan
        14
    nciyuan  
    OP
       Aug 8, 2018 via Android
    @keinx 注意指针,并且去官网先看看,1 写请,2 为先副,4 为写本,5 为写回,然后我不会认为腾讯云架构能傻到写下主,读出来写副,再写一次,而且他们的视频别的片段也说,不会这么傻的用一次写三,或流水线方式,他们说这种既降低流量,又能提升速度,所以步骤 4 写主。
    @binghe 反正我感觉开盘都能恢复数据的事,腾讯云说 100%回不来真的很钢哦
    @ZE3kr 我找的是 EBS,也就是云硬盘,不知道我理解的对不对,静态文件存储是 S3 的业务,硬盘给 EC2 用,阿里云的 ECS 说的是 99.七个 9,但是 OSS 这种静态业务是 99.九个九,官网宣称的服务器硬盘本身没有分别选项,因为硬盘就是随时读写的,静态存储的是有请求就读写,上传完没人访问 IO 就 0 了,腾讯云 COS 也是九个九,静态安全性总是比较高的
    @swulling 谢大佬解答
    nciyuan
        15
    nciyuan  
    OP
       Aug 8, 2018 via Android
    我感觉如果腾讯云恪守诚信,那么按照 1TB 丢一字节来算,那么麻花腾真是把这么多年了做的孽都遭报应了。不过还有很多小学生充钱,合盒和ヽ(=^・ω・^=)丿
    @keinx @Tink @llxe2v @iConnect
    这里说明了腾讯云三机备份的分布
    https://cloud.tencent.com/product/cbs?idx=1
    在云硬盘的优势这个视频,
    https://cloud.tencent.com/product/cbs/getting-started
    这里是多副本冗余的视频,特别清晰明白的说明第四步才写主盘,并且明确地说明了腾讯云不会先写一份盘,然后延迟,通过流水线方法备份,就是收到数据先写别的,不存在读的过程。
    @llxe2v @swulling 感觉这次腾讯云的公关真没百度强,因为他们承诺故障百倍赔偿,PC 官网有,并且它的声明里说
    腾讯云目前制定如下“赔偿+补偿”方案。赔偿部分:“前沿数控”在平台上(自 2017 年 12 月份开户至今)产生的实际消耗共计 3569 元,腾讯云将按照赔偿条款中的上限以现金形式全额返还这笔费用。补偿部分:本着帮助用户迅速恢复业务的目的,腾讯云承诺为“前沿数控”提供 132900 元现金或云资源的额外补偿。“赔偿+补偿”总金额达到 136469 元的解决方案。
    但是官网说百倍的是赔偿,如果按照腾讯云的说法,假设真的是一百倍赔偿,假设腾讯云恪守诺言,相当于说前沿数控在腾讯云因为云硬盘消费了 1329 元钱,而腾讯云说的是本着帮用户的态度,所以闭口不提三备份和故障百倍赔偿。另外我在北三数据中心(北京)和北一数据中心(天津)进行价格计算得出的数据,12 月到现在一共是 9 个月,那么假设购买日期为一年的话,450 GB 普通云硬盘的一年期为 1344.6 元,或者两年 260G 普通云硬盘 1310.4 元,或者是 1 年期 380G 混合盘 1324.68 元,2 年 230G 混合 1352.4,一年 SSD120G 1314.72 ,SSD 最低 100G 起售,所以两年 1.3K 不存在。
    baiwfg2
        16
    baiwfg2  
       Jan 13, 2021
    @ys0290 啊,不是数学公式算出来的啊。。我 naive 了吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2553 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 06:57 · PVG 14:57 · LAX 23:57 · JFK 02:57
    ♥ Do have faith in what you're doing.