各位好,目前大多的互联网企业使用的服务器都是市面上的公有云服务,阿里云,腾讯云, ucloud 之类的,请问大家是如何解决云主机宕机及时收到通知的呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
duanlian
V2EX    DevOps

各位好,目前大多的互联网企业使用的服务器都是市面上的公有云服务,阿里云,腾讯云, ucloud 之类的,请问大家是如何解决云主机宕机及时收到通知的呢?

  •  
  •   duanlian 2019-02-16 17:43:00 +08:00 1879 次点击
    这是一个创建于 2493 天前的主题,其中的信息可能已经有所发展或是发生改变。
    尤其是半夜和节假日,没有值班人员的时候,非常头痛,单纯的依靠云厂商的通知,一般不会第一时间通知到,会有一定的延迟;自己处理的方式是用的 zabbix 的 fping 服务,可靠性也不是好,尤其是海外的云主机,网络抖动,GFW 之类的回有影响,产生误报。求解决方案。
    14 条回复    2019-05-10 16:52:08 +08:00
    yuhr123
        1
    yuhr123  
       2019-02-16 17:58:11 +08:00 via iPhone
    想到了几个关键词供参考:热备,负载均衡,CDN 这些公有云都有方案
    wongskay
        2
    wongskay  
       2019-02-16 17:58:36 +08:00 via iPhone
    我也有该需求,例如网站挂了怎么第一时间知道。
    Athrob
        3
    Athrob  
       2019-02-16 17:58:50 +08:00 via iPhone
    做个程序放服务器,定时上报我还活着。超几次没报就认为死了。
    dazhangpan
        4
    dazhangpan  
       2019-02-16 19:07:24 +08:00
    感觉 V2EX 的工单比他们的通知邮件要快,不如做个监控 V 站的脚本?
    duanlian
        5
    duanlian  
    OP
       2019-02-16 19:26:47 +08:00
    @wongskay 网站这个还是比较好办的,监控首页状态,监控关键的业务接口都行;
    duanlian
        6
    duanlian  
    OP
       2019-02-16 19:28:01 +08:00
    @dazhangpan 每次延迟收到都要命,晚上睡一觉几个小时了。。。
    opengps
        7
    opengps  
       2019-02-16 19:52:27 +08:00
    说下具体服务看看,我感觉各种云监控已经够用了,我现在用的是阿里云的云监控。也有自己写的 tcp 服务器程序成品支持不够理想,就自己有特定的请求返回,自己做的外网监控端
    luozic
        8
    luozic  
       2019-02-16 19:55:12 +08:00 via iPhone
    冗余,无论是云还是托管还是啥,恰当的冗余是可靠性第一定律。 实际生活里面的工程也是一样。
    AlexaZhou
        9
    AlexaZhou  
       2019-02-16 20:09:55 +08:00
    之前用过云智慧的监控宝服务,很好用,专门针对这种需求,网站挂了让你比老板先知道,推荐一把
    wongskay
        10
    wongskay  
       2019-02-16 22:07:15 +08:00 via iPhone
    @AlexaZhou 网站挂了第一时间比老板知道真的很重要。。。。
    raynor2011
        11
    raynor2011  
       2019-02-17 04:49:35 +08:00 via Android
    高可用,挂一台机器不影响正常运行
    theks
        12
    theks  
       2019-02-17 11:59:54 +08:00 via Android
    机器挂掉前是有预兆的,比如 cpu、内存使用率,网络流量等。
    在用阿里云,自带云监控功能,可以监控 ecs、rds 系统资源到达某个阈值就报警。另外有网站监控,定时访问某个网站,如果多个监测点同时都访问不了就报警。
    阿里云的云监控每月有 1000 条免费报警短信的额度,够用了。
    wkl17
        13
    wkl17  
       2019-02-18 01:59:20 +08:00
    @theks 只在阿里注册过域名,是否也有免费 1000 条报警短信?还是必须有开通 ECS 等才有?
    ethsol
        14
    ethsol  
       2019-05-10 16:52:08 +08:00
    就算你各种监控都做好,怎么保证你晚上睡觉时候收到一条短信就会醒,很早以前某领导下令写过一个 app,如果服务器不上报消息就判断宕机,然后 app 会响,尼玛各种折腾误报,不堪回首。。。。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2682 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 14:18 PVG 22:18 LAX 06:18 JFK 09:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86