腾讯云复盘用户数据丢失故障:存在人为不规范操作,将积极改进 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
liaohongxing
V2EX    问与答

腾讯云复盘用户数据丢失故障:存在人为不规范操作,将积极改进

  •  
  •   liaohongxing 2018-08-08 10:24:16 +08:00 2742 次点击
    这是一个创建于 2671 天前的主题,其中的信息可能已经有所发展或是发生改变。

    近日,腾讯云的客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致文件系统元数据损坏。

    腾讯方面提出了总金额 136,469 元的“赔偿+补偿”解决方案,前沿数控则索赔 11,016,000 元,被腾讯认为过高,双方未达成一致。

    现在,腾讯云发布了一份关于客户“前沿数控”数据完整性受损的技术复盘,对客户业务所受影响表示诚挚歉意的同时,详细解释了此次故障发生的根源,以及将采取的措施。

    腾讯云经过复盘发现,故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

    当天上午 11:57,腾讯云运维人员收到仓库 I 空间使用率过高告警,准备发起搬迁扩容。

    14:05,运维人员从仓库 I 选择了一批云盘搬迁至新仓库 II,为了加速搬迁,手动关闭了迁移过程中的数据校验。

    20:27,搬迁完成之后,运维人员将客户的云盘访问切至仓库 II,同时为了释放空间,对仓库 I 中的源数据发起了回收操作。

    20:30,监控发现仓库 II 部分云盘出现 IO 异常。

    腾讯表示,数据搬迁过程中的违规操作主要如下两点:

    第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

    第二是正常数据搬迁完成之后,源仓库数据应保留 24 小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

    因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云再次表示最诚恳的歉意。

    改进措施方面,腾讯云提出了两点:

    首先,将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升常规运维自动化和流程化,降低人工干预,同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。

    其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

    另外,腾讯云建议用户开启免费的快照功能,对重要数据进行定期备份。

    对于索赔和赔偿问题,腾讯云暂未披露更多进展。

    6 条回复    2018-08-08 12:35:16 +08:00
    wps353
        1
    wps353  
       2018-08-08 11:00:19 +08:00
    呵呵
    laoma2
        2
    laoma2  
       2018-08-08 11:02:10 +08:00
    不遵守规程就有可能犯大错
    metorm
        3
    metorm  
       2018-08-08 11:07:26 +08:00 via Android
    所以说,只需要低权限账户就可以做出违背操作规程的不安全操作?
    luofan004
        4
    luofan004  
       2018-08-08 11:43:10 +08:00
    大多数互联网公司在公司账户体系上管理都没那么严格,流程太长会增加很多的额外时间开销。感觉自己很能理解这种事儿啊。
    chenuu
        5
    chenuu  
       2018-08-08 11:49:59 +08:00
    矮要承认,挨打站稳
    ryd994
        6
    ryd994  
       2018-08-08 12:35:16 +08:00 via Android
    @laoma2 道理谁都懂,实际上真的管不住下面人
    还是要改进系统,直接不给偷懒的机会,因为只要有机会就有人会偷

    我们查 bug,感觉可能是某线没插好。问机房,机房说插好了。查来查去不对。再叫机房去看,要拍照,一下就好了

    其实就是另一拨人维护其他东西的时候,顺手拔错了,也没有记录在日志。我们第一次问的时候,他们看看日志,就说没问题啊。

    教育当然是要教育的,但实际上并没什么用。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     782 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 20:32 PVG 04:32 LAX 12:32 JFK 15:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86