云计算无法消灭“误差”,运维裸奔是创业大忌 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
huafang
V2EX    云计算

云计算无法消灭“误差”,运维裸奔是创业大忌

  •  
  •   huafang 2018-08-07 15:40:38 +08:00 3906 次点击
    这是一个创建于 2624 天前的主题,其中的信息可能已经有所发展或是发生改变。

    夏日炎炎,闷热北京,宁可不见窈窕淑女,也不愿出门晒肉干,不见天空云朵,因为不敢抬头看太阳。

    在热雷雨的天气里,云计算行业出现了一则小插曲,腾讯云趟上事儿了,还是一件纵有委屈、有口难辩的事儿。

    一位叫做“前沿数控”的用户发文控诉腾讯云, 用了一个很吓人的标题《腾讯云给一家创业公司带来的灾难》,以创业者之名谴责腾讯云赔偿金额太少,并索要千万元赔偿。

    看双方沟通过程,私下应该已经勾兑许久,但最终还是因为赔偿金额的分歧闹到台面上。看腾讯云的官方表态,还是希望尽可能帮助用户解决问题。但在帖子中“创业者”、“灾难”、“数据丢失”这些个关键词的引导下,业界还是掀起一片讨论。

    纵览事情来龙去脉,我发现这事儿不复杂,搞了十几年互联网,啥事都遇见过,也用过各大云计算厂商的云服务器,同时,我也是苦逼创业者。从旁观者角度,我说说自己的一些观点,希望对大家有所帮助。

    ## 三副本策略不等于快照,云计算做不到零误差

    我细看了一下“前沿数控”的声讨文章、腾讯云的官方声明,发现这事儿真的不复杂:一块操作系统云盘出现低概率的硬盘固件版本 bug,造成一部分数据丢失,腾讯云的文件系统专家已经帮助恢复了大部分数据,但部分数据无法修复,“前沿数控”认为腾讯云有“ 99.999999%的数据可靠性的三副本存储策略,认为腾讯云应该负全责。

    三副本存储策略,成为焦点,在一些技术社区也展开了技术大讨论,然而,并没有出现云计算同行挤兑腾讯云,这是为什么呢?因为三副本存储策略是云计算行业的通用技术方案,各大云计算厂商都是这个策略,但谁也不敢保证零故障的可能性。

    事件中的“前沿数控”,把三副本理解成万无一失的快照备份了,没有做本地备份,基本上属于运维裸奔状态。但是,云计算行业做不到零误差,这是人类世界的极限挑战,只能无限接近完美,却永远无法做到物理世界的零误差,腾讯云做不到,阿里云也做不到,AWS 也做不到。

    快照,快照,快照,重要的事儿说三遍,三副本策略不等于快照,三副本策略是云计算厂商的底层系统,是云计算厂商工程师才能操作的数据层,快照才是云服务器运维的必备工具。无论是腾讯云,还是阿里云,都会强调三副本策略不同于快照,三副本不能替代用户的备份工作。

    ## 云计算不是万能上帝,Google 也难逃 0.000001%

    纵然云计算为各行各业带来了云计算的技术福利,也确实降低了企业的创业成本,但是,剩下的 0.000001%的不确定因素是腾讯云不敢保证的,阿里云、AWS、微软、谷歌之中也没有一个敢保证。

    说说 Google 的事儿,他们的比利时数据中心曾遇到四次闪电袭击电力设施,导致磁盘受损、部分云存储系统断线、数据丢失。Google 工程师对受损磁盘进行了努力修复,仍有不到 0.05%的磁盘未得到修复,丢失的数据仍非常非常地小,永久被删除的数据只占了该数据中心的 0.000001%。

    今一月份,麦田音乐网在发文,因阿里云服务器崩溃,磁盘分区表损坏,自己存放在阿里云上的数据全部丢失。今年的 6 月 27 日,由于运维误操作,阿里云曾经出现过一次重大技术故障,时间长达 30 分钟,陆续恢复用了近一个小时,引发剧烈的行业讨论和用户吐槽。

    七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的。

    虽然各大云服务商的传播口径中都有关于 XX 个 9 的可靠性介绍,但是,就像物理学中的误差一样,这个数字只能无限接近于 1,谁也不能保证故障可能性为 0。

    ## 运维裸奔是大忌,同情“前沿数控”

    无论是硬件不可抗力的故障,还是黑客入侵、意外删除,都可能带来系统崩溃,这个事件是“前沿数控”的惨痛教训。运维裸奔是创业大忌,用好云计算厂商的运维工具是创业必修课,我自己在用腾讯云的云服务器、RDS 和快照,做好数据库安全和云服务器数据安全。

    “前沿数控”的技术负责人似乎没有运维经验,应该提前做好源代码、数据、静态附件的备份,如果你用了 RDS,恢复生产会更容易一些。“前沿数控”的遭遇源自于一块系统盘不可抗力 bug,更加说明了系统盘快照、镜像的重要性。

    对于中小创业者,只需要用云计算平台的快照、镜像、本地备份,即可确保数据的安全性。以腾讯云为例,系统盘、数据盘都可以进行快照备份,目前快照服务是免费的,直到 2018 年四季度才开始商业化,用好快照,则可以备份、恢复不求人了。

    过去,我也犯过运维裸奔的错误,吃过不少亏,现在比较老实了,老老实实做好数据运维和安全运维,才能减少系统性风险。虚拟主机时代,是服务器管理员帮你在代运维;云计算时代,技术更先进,自由度更高,但运维却需要自己来做,云计算厂商只提供一些现代运维工具,事实上,运维反而变得更加重要了。

    ## 云计算不是一劳永逸,技术合伙人是创业必备

    “前沿数控”的这个事儿,说明了两点:1、云计算不等于零运维,云计算只是基础设施,不能忽视技术运维的重要性;2、不懂技术的创业者,必须有一个合格的技术合伙人。

    只要干了互联网这一行,只要有网站、数据在运行,我们是永远要和漏洞、bug、黑客、备份、恢复等一大串关键词打交道。项目做得越大,越需要牛逼的运维人员,越会发现技术合伙人的重要性,并非把项目传到云服务器上就万事大吉。

    未来的一切互联都将跑在云计算平台上,此时,创业者的技术思维不能停留在虚拟主机 Hosting 时代,不能给拖拉机装飞机发动机。

    建议“前沿数控”这家公司开除技术负责人,寻找更好的技术带头人,重新规划和设计自己的技术运维路线,为未来发展打下好基础。希望这家公司的投资人,多一些包容,帮助创业者寻找技术合伙人,不要再出现运维裸奔了。建议理性索要赔偿金额,合理评估各方责任,避免在不合理金额的无休止争论中浪费时间,用科学方法评估,致力于解决问题,而不是问责。

    希望腾讯云能够派出一名运维专家,去给这家公司的技术部门、领导层讲讲课,普及一下基础运维知识。

    建议腾讯云推出一些高清视频课程,为那些不太懂运维的用户群体,做一些形象直观的官方教程,帮助比较小白的用户进行自学成长。

    via 微信公众号 小芳侠

    25 条回复    2018-08-11 13:19:20 +08:00
    qiyuey
        1
    qiyuey  
       2018-08-07 15:48:06 +08:00   2
    本章已看完,感觉并没有任何实质性内容
    huafang
        2
    huafang  
    OP
       2018-08-07 15:50:58 +08:00
    @qiyuey 技术大牛们可以直接略过
    pinews
        3
    pinews  
       2018-08-07 15:51:51 +08:00   1
    弃用腾讯云不是更好的选择?
    huafang
        4
    huafang  
    OP
       2018-08-07 15:53:57 +08:00
    pinews 大厂的云计算,基础服务都差不多,阿里 google 都遇到过各种问题,也没少被骂
    defunct9
        5
    defunct9  
       2018-08-07 15:54:43 +08:00   3
    运维不裸奔上什么云呢
    zxdyb
        6
    zxdyb  
       2018-08-07 16:02:22 +08:00   3
    “阿里云服务器崩溃,磁盘分区表损坏”,“由于运维误操作,阿里云曾经出现过一次重大技术故障”,
    “七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的”,

    这样的用词,感觉倾向性很强啊。
    iwaifor
        7
    iwaifor  
       2018-08-07 16:07:26 +08:00
    没啥内容啊,连个可参考的方法论的东西都没有
    pinews
        8
    pinews  
       2018-08-07 16:08:28 +08:00
    @zxdyb 我记得阿里云的确出了问题,但是数据最后恢复了,这家只是少量故障却无法恢复数据,除了用”倒霉”二字,还真不好用其他词形容,只是不知道是腾讯云倒霉,还是客户倒霉,谁倒谁的霉。
    vimutt
        9
    vimutt  
       2018-08-07 16:08:50 +08:00 via iPhone   1
    快照如果坏了呢 又说快照不等同于运维备份 所以最该背锅的还是运维 让运维赔 1000w 吧
    huafang
        10
    huafang  
    OP
       2018-08-07 16:11:33 +08:00
    @vimutt 快照服务器一般是独立的,而且是定期快照,相对更安全
    zapper
        11
    zapper  
       2018-08-07 16:12:46 +08:00   3
    公关文吧
    yeze322
        12
    yeze322  
       2018-08-07 16:13:34 +08:00
    线上事故不需付出高额赔偿,股价大跌会让你付出应有代价。

    换成 AWS 或 Azure,敢多出几次这种事,分分钟钟被看空
    huafang
        13
    huafang  
    OP
       2018-08-07 16:18:03 +08:00
    @yeze322 google 出过类似事儿,如果事故规模大了,影响股价是必然的
    cherryas
        14
    cherryas  
       2018-08-07 17:18:47 +08:00
    虽然是洗白文,但是确实其他几家( aws、阿里云)都出过丢数据的事情,腾讯云的事情不是首例,也不会是最后一例
    LucasLee92
        15
    LucasLee92  
       2018-08-07 18:00:45 +08:00
    就不知道,其他几家对数据丢失后是如何处理的
    annielong
        16
    annielong  
       2018-08-07 18:05:07 +08:00
    技术上 bug 概率一定存在,XX 个 9 依然不能保证数据的安全,所以数据备份很重要。腾讯云出故障,该赔偿就赔偿,不过不能把锅全甩给腾讯
    bofei
        17
    bofei  
       2018-08-07 18:12:21 +08:00   1
    倾向太明显了 没看的价值
    night98
        18
    night98  
       2018-08-07 22:14:05 +08:00
    v2 某些人水平也是可以的,技术这种事情本身就做不到百分百无 Bug,三副本是动态数据安全,快照才是静态数据安全,上云不代表运维裸奔,只是减少服务器运维成本而已,不要想太多。
    qiuqiuer
        19
    qiuqiuer  
       2018-08-07 23:29:32 +08:00 via Android   4
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
    jimmyczm
        20
    jimmyczm  
       2018-08-08 10:14:01 +08:00
    软文,腾讯的错一笔带过,公司的错放大来看
    UGLW
        21
    UGLW  
       2018-08-08 10:32:42 +08:00
    看来我是个老实人。
    y835L9DyC5XD09kq
        22
    y835L9DyC5XD09kq  
       2018-08-08 10:58:54 +08:00   1
    腾讯还不明白吗?在明知有错的情况下,越是花钱洗地越是加深用户的不安全感。
    云这种东西卖的就是安全感啊。
    yanyuechuixue
        23
    yanyuechuixue  
       2018-08-08 11:45:49 +08:00 via Android
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为也没有忽悠到我。
    lyhiving
        24
    lyhiving  
       2018-08-09 09:21:56 +08:00
    腾讯云洗地之作。

    云丢数据还叫什么云?
    Suzutan
        25
    Suzutan  
       2018-08-11 13:19:20 +08:00
    这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3040 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 00:24 PVG 08:24 LAX 17:24 JFK 20:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86