V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mhycy
V2EX  ›  程序员

关于腾讯云事件“前沿数控技术生产数据完全丢失”的看法

  •  
  •   mhycy · 2018-08-06 23:22:25 +08:00 · 4094 次点击
    这是一个创建于 2301 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    这本是帖子「腾讯云的事,是不是很多人以为三副本就是备份,不应该丢数据,很靠谱....」的一个回复
    回复发出后自我感觉良好,遂稍作优化作为个人看法独立发帖,望各位大佬拍砖指正

    正文

    个人看法高可用的存储底层节点架构应符合以下准则
    1、应为非同批次、非同固件的等容量、等架构磁盘组建硬件 /软件 RAID
    2、应配合巡检定期校验数据是否可用,并尽早踢出异常磁盘
    3、存储节点自身应具有完善的警告预警机制
    4、三备份的集群架构应是基于此磁盘架构的冗余备份架构,无论是实时互备还是定时冷备

    一般云 VPS 服务的自动迁移依赖独立的磁盘柜与计算集群实现
    那么在腾讯的这个案例上,可能存在三台阵列柜、一套磁盘阵列网关与若干计算节点组成的计算机群
    丢失数据的范围为一个集群(假定整个集群都出现静默错误,且真的存在三备份架构)

    那么问题来了
    1、为什么现在只有一家公司发声?
    2、如果真的是三备份架构,为什么会三套存储设备同时故障?
    3、为何阵列损坏后没有任何警告、通知直接就是静默错误?

    假设现在的信息都为真实信息,没有人为修饰掩盖
    有以下推断:
    1、不存在三套设备互备的磁盘架构
    2、这个软件 BUG 不在硬盘而在软件分布式上面
    3、假设 2 推断为假,软件 BUG 位于磁盘,则阵列架设没有严格遵守高可用原则进行设计
    4、假设 2 推断为真,那么更有可能的情况是 BUG 位于阵列卡,数据位于单一母机,丢失范围为一台母机
    5、假设 2 推断为真,数据存在集群上面,且 BUG 位于自研的分布式存储平台上,那么...不多说了

    说实在,怎么想都想不出来为什么一个成熟的云平台能搞到数据全丢
    单个磁盘的静默损坏对于磁盘阵列的构建是必然需要考虑的问题
    ZFS 的设计就是为了抵御这类事情的发生
    甚至有点怀疑是不是有人手动 /某个自动化 BUG 的 "rm -rf" 了特定的虚拟机磁盘文件然后后续业务直接写花了集群
    这应该是可能性更高的情况

    补充看法

    也许很多人认为云服务就应该是绝对可靠,毕竟有许多业界大佬进行维护与开发。
    这想法没错,但是考虑到可能存在的风险,以及云服务商并不会提供底层架构的具体细节
    理应对云服务的安全性、可靠性有所保留,自行备份 /同步各项业务数据
    这是对业务的负责,也是一个技术人员专业性的表现。

    在现有的商用\家用宽带环境下,在众多开源隧道方案的加持下(重点推荐 ZeroTier )
    实时同步数据库数据到本地进行持续热备应不是难事(二进制日志远程写入)
    而业务数据,定期同步到别的地方所需要的磁盘空间以及带宽消耗也是可以接受的
    对公司的投入也仅仅是一个本地的磁盘柜以及相应的带宽投入而已。
    而下行带宽,显然是相当的便宜

    作为商业数据,数万元的本地硬件投入,采购二手平台甚至可以做到万元级投入
    这应该是可以接受的吧?

    10 条回复    2018-08-08 10:07:27 +08:00
    iConnect
        1
    iConnect  
       2018-08-07 06:29:41 +08:00 via Android
    拍不动,楼主分析很到位。虽然前沿数控方面太业余,但腾讯方面要么是公布的不是真相,要么就是有甩不掉的锅。

    (客户自己做不做备份是增强数据安全)云服务可以做的客户数据灰飞烟灭,毛都不剩,也是要点本事的。
    jaybing926
        2
    jaybing926  
       2018-08-07 10:12:46 +08:00
    如果他们的数据真有那么大价值,为啥自己不做备份,主从,HA ?
    会不会是打算讹钱跑路的?还是腾讯店大欺客?
    iConnect
        3
    iConnect  
       2018-08-07 10:36:35 +08:00
    @mhycy 假设腾讯云的官方回复属实:我们随即对固件版本有 bug 的硬盘全部进行下线处理,。。。
    碰巧阵列里部署的硬盘是同一型号,全都有 bug。但这样还是难解释为什么只有一家企业的数据丢了,难道其他的都已经被 tx 方私下了了?

    ![qcloud.jpg]( https://i.loli.net/2018/08/07/5b690475ac5d6.jpg)
    hpu423
        4
    hpu423  
       2018-08-07 11:49:23 +08:00
    别用腾讯云的服务,之前也是有一次事故说是 redis 服务器的硬盘坏了,另外多次出现网络抖动的事故,现在迁移到阿里云,省心多了
    neocanable
        5
    neocanable  
       2018-08-07 13:07:48 +08:00
    @jaybing926 一看你就是专门洗地的号。
    mhycy
        6
    mhycy  
    OP
       2018-08-07 13:47:06 +08:00
    @iConnect
    所以确实没想通。。。

    倒是因为这个事件围观各个帖子涨了不少存储领域的见识也算是有所收获
    ahjsrhj
        7
    ahjsrhj  
       2018-08-07 17:52:31 +08:00
    看了下新闻,三副本指的是数据盘三副本,这家公司数据放在购买时附赠的系统盘上了,所以是没有副本的
    这样理解对么
    ahjsrhj
        8
    ahjsrhj  
       2018-08-07 17:54:16 +08:00
    @iConnect #3 固件有 bug 不代表 bug 会触发啊,没有其它的声音可能是其它的都没有触发这个 bug
    nullornull
        9
    nullornull  
       2018-08-08 10:01:35 +08:00
    @mhycy 楼主,腾讯云给出了此次数据完整性受损的技术复盘,根据这个复盘,数据丢失的原因就是人为的了:
    https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ
    mhycy
        10
    mhycy  
    OP
       2018-08-08 10:07:27 +08:00
    @nullornull
    这样的运维都能进腾讯。。。唉
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:35 · PVG 15:35 · LAX 23:35 · JFK 02:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.