V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
liaohongxing
V2EX  ›  问与答

腾讯云复盘用户数据丢失故障:存在人为不规范操作,将积极改进

  •  
  •   liaohongxing · 2018-08-08 10:24:16 +08:00 · 2212 次点击
    这是一个创建于 2300 天前的主题,其中的信息可能已经有所发展或是发生改变。

    近日,腾讯云的客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致文件系统元数据损坏。

    腾讯方面提出了总金额 136,469 元的“赔偿+补偿”解决方案,前沿数控则索赔 11,016,000 元,被腾讯认为过高,双方未达成一致。

    现在,腾讯云发布了一份关于客户“前沿数控”数据完整性受损的技术复盘,对客户业务所受影响表示诚挚歉意的同时,详细解释了此次故障发生的根源,以及将采取的措施。

    腾讯云经过复盘发现,故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

    当天上午 11:57,腾讯云运维人员收到仓库 I 空间使用率过高告警,准备发起搬迁扩容。

    14:05,运维人员从仓库 I 选择了一批云盘搬迁至新仓库 II,为了加速搬迁,手动关闭了迁移过程中的数据校验。

    20:27,搬迁完成之后,运维人员将客户的云盘访问切至仓库 II,同时为了释放空间,对仓库 I 中的源数据发起了回收操作。

    20:30,监控发现仓库 II 部分云盘出现 IO 异常。

    腾讯表示,数据搬迁过程中的违规操作主要如下两点:

    第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

    第二是正常数据搬迁完成之后,源仓库数据应保留 24 小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

    因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云再次表示最诚恳的歉意。

    改进措施方面,腾讯云提出了两点:

    首先,将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升常规运维自动化和流程化,降低人工干预,同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。

    其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

    另外,腾讯云建议用户开启免费的快照功能,对重要数据进行定期备份。

    对于索赔和赔偿问题,腾讯云暂未披露更多进展。

    6 条回复    2018-08-08 12:35:16 +08:00
    wps353
        1
    wps353  
       2018-08-08 11:00:19 +08:00
    呵呵
    laoma2
        2
    laoma2  
       2018-08-08 11:02:10 +08:00
    不遵守规程就有可能犯大错
    metorm
        3
    metorm  
       2018-08-08 11:07:26 +08:00 via Android
    所以说,只需要低权限账户就可以做出违背操作规程的不安全操作?
    luofan004
        4
    luofan004  
       2018-08-08 11:43:10 +08:00
    大多数互联网公司在公司账户体系上管理都没那么严格,流程太长会增加很多的额外时间开销。感觉自己很能理解这种事儿啊。
    chenuu
        5
    chenuu  
       2018-08-08 11:49:59 +08:00
    矮要承认,挨打站稳
    ryd994
        6
    ryd994  
       2018-08-08 12:35:16 +08:00 via Android
    @laoma2 道理谁都懂,实际上真的管不住下面人
    还是要改进系统,直接不给偷懒的机会,因为只要有机会就有人会偷

    我们查 bug,感觉可能是某线没插好。问机房,机房说插好了。查来查去不对。再叫机房去看,要拍照,一下就好了

    其实就是另一拨人维护其他东西的时候,顺手拔错了,也没有记录在日志。我们第一次问的时候,他们看看日志,就说没问题啊。

    教育当然是要教育的,但实际上并没什么用。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2730 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 11:11 · PVG 19:11 · LAX 03:11 · JFK 06:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.