反向思考:阿里云这次故障里,有哪些措施面对故障发挥了好的作用? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
opengps
0.01D
V2EX    问与答

反向思考:阿里云这次故障里,有哪些措施面对故障发挥了好的作用?

  •  1
     
  •   opengps 2018-06-28 08:58:46 +08:00 3614 次点击
    这是一个创建于 2718 天前的主题,其中的信息可能已经有所发展或是发生改变。

    首先,强调下中立理性思考的立场,虽然我做阿里云推广,但不是为了说阿里云好话推广阿里云。
    我是做技术出身,毕业后待过 2 家公司都不出实习期就离职了,后来在一加汽车服务公司做 GPS 平台 5 年多,这期间经历过项目发展过程的多种问题,因此本文不是在说谁好谁坏,我个人经历的项目,并发设备经历过从 0 到 10 万,从物理机房到物理机房虚拟化,再到全云平台。深刻体会过每次故障处理过程的困难。借此机会探讨下如何涉及、部署这种高并发项目,今天侧重部署方面,谈谈

    先用我自身举例,经历过的几个故障有(自建物理机房时期):
    1,运营商跨网故障,移动手机卡发往联通机房时候,在省节点跨网交换数据处中断。 最终找移动解决,耗时接近 3 天。后来针对线路特点,加了个移动光线,移动卡发回的数据,走移动线路,用户访问网站走联通线路,解决方式算是有效,最后上云直接依赖 BGP 线路
    2,物理机房时期:本市修地铁,挖断了联通光纤,半夜 3 点左右,我的外部监控发出报警,早上大约 5 点修复。 我当时能做的只有打完联通某些部门电话后(而且没有客服电话,是我联系业务中,存下的某些部门电话),坐等。。。
    3,地域性 dns 故障,某个城市到我们机房省份,经常出现不上线的情况,其他城市正常。 最后没有什么有效解决方案,通过配置,客户端设备改为不再使用域名,换成 ip,从此绑在了 ip。负面结果是后来上云总是没法彻底迁移设备数据。
    4,线路距离故障,某个省到机房总是很高延迟,经常飘红。 没有效解决办法,这个故障的最终用转移到云上,华东机房方式解决。实现全国范围综合延迟都兼顾。
    5,gps 业务的特点,高并发写入,硬盘写坏了 好在 raid10 的存在,接近 1T 的数据库还健在运行,最终只能停机更换硬盘,半夜对外中断服务,周期很长。(最快的解决方法就是转移到另外一台机器,1T 数据万兆网卡内网传输,光拷贝过程就用了很久)

    目前,关于本次阿里云故障,我总结到的有:
    1,再高的可用性,都是存在不可用的时段。
    我们自己的小网站不必多说,稍微一点维护,就要先关掉网站,这期间的时间都算所影响在线时长。本次阿里云故障假设按照半小时算,今年假设再没有其他故障,可用性就已经跌落到 4 个 9,99.99%
    2,赔付协议 很多人在故障期间都提到了怎么赔偿问题,居然真的有人说不会赔偿,显然不太可能,赔付协议是个很早就制定好的。防止的就是这种情况出现,而且今年还重新修订过一些细节。
    3,网站首页单独负载
    很多人都留意到了,阿里云故障期间,首页可以正常打开,只是其他功能和子页面故障,推测是针对首页高访问的一个优化方案,似乎是独立发布了首页,这个算是我在本次故障中的最大发现
    4,
    5,
    6,
    。。。

    本帖子的用意在于:欢迎各位运维大佬,指导下大项目发布过程要做的储备以及目的,欢迎各补充^^

    15 条回复    2018-07-02 13:46:21 +08:00
    opengps
        1
    opengps  
    OP
       2018-06-28 09:12:00 +08:00
    还有啥好的系统部署做法啊?
    int64ago
        2
    int64ago  
       2018-06-28 09:18:17 +08:00 via Android   1
    阿里云各个服务页面(控制台)其实都是独立部署的
    opengps
        3
    opengps  
    OP
       2018-06-28 09:30:17 +08:00
    @int64ago 这种一个网站拆分一大堆服务的结构,怎么实现的?有参考资料吗?
    int64ago
        4
    int64ago  
       2018-06-28 09:40:08 +08:00
    @opengps #3 几句话说不清的
    opengps
        5
    opengps  
    OP
       2018-06-28 09:47:22 +08:00
    @int64ago 用过一种,前后端分离,所有后端数据走的 webapi,每个服务一个 webapi。
    如果用这种实现,那就是一个前端集群,一大堆各种类别服务集群实现了,不知道阿里云网站是不是这种性质,阿里云首页能正常,猜想不出前端首页怎么实现单独一个集群
    opengps
        6
    opengps  
    OP
       2018-06-28 09:52:42 +08:00
    好像问与答节点不进入 v 站首页,没大佬过来指导。。。
    ivmm
        7
    ivmm  
       2018-06-28 09:54:26 +08:00
    两地四中心, 阿里云 + AWS (中国) 搞一套,不知道能不能建专线,哈哈
    opengps
        8
    opengps  
    OP
       2018-06-28 09:58:14 +08:00
    @ivmm 目前了解的似乎也就银行业务实现了两地多中心,我知道招商银行是南京深圳 2 地区部署。
    专线很贵,有生之年不知道有没有机会接触到这种项目。。。
    ivmm
        9
    ivmm  
       2018-06-28 10:09:40 +08:00   1
    @opengps

    看业务量了,业务量越多搞灾备的成本就越高

    要是一个小博客搞多地灾备简直不要太轻松
    TheBestSivir
        10
    TheBstSivir  
       2018-06-28 13:45:00 +08:00   1
    前端页面谈何负载?反正就是静态资源部署在 CDN 上呗。。。
    xx 外卖的 M 站都拆了 N 个页面分为 N 个独立,没啥原因,前端也要做团队的拆分和页面的拆分啊
    akira
        11
    akira  
       2018-06-28 14:18:20 +08:00
    阿里云的海外节点的控制台是独立的,但是不知道为什么也是进不去
    Miceeee
        12
    Miceeee  
       2018-06-28 14:30:47 +08:00
    弱弱的问一句,可以转载一下你的观点吗?
    opengps
        13
    opengps  
    OP
       2018-06-28 15:10:18 +08:00
    @Miceeee 欢迎,能被转发说明说的有点用处
    opengps
        14
    opengps  
    OP
       2018-06-28 15:11:30 +08:00
    @akira 我感觉这是某个中间件的整体故障,不然引发的影响不会这么广泛
    c0878
        15
    c0878  
       2018-07-02 13:46:21 +08:00   1
    总之从架构上消灭单点故障 这次 OSS 故障 NAS 故障 很多认为 OSS NAS 本身就是集群高可用不考虑单点故障的情况 却没有想到整个服务挂掉的可能性
    但是数据存储这块 做灾备的成本是很高的 可用性都是用钱堆起来
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     829 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 234ms UTC 21:23 PVG 05:23 LAX 13:23 JFK 16:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86