阿里云 经常无故 IO 飙升, 然后不得不重启 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
LuoDiNate
V2EX    云计算

阿里云 经常无故 IO 飙升, 然后不得不重启

  •  
  •   LuoDiNate 2016-08-12 14:36:42 +08:00 5900 次点击
    这是一个创建于 3350 天前的主题,其中的信息可能已经有所发展或是发生改变。

    阿里云买的服务器, 东北节点 1G 内存, 40G 盘

    最近事故出现频繁, 看起来就是网站挂了, ssh 不上去, 然后超时 服务 80 和 8080 都有, 都是 pending 很久然后超时

    提交工单, 客服说 io 高, 丢我一个连接让我自己折腾 麻蛋, 我连服务器都上不去, 管理终端也连不上去, 给我一个帖子能怎么解决问题,

    重启后改善, 但是上面只有 mysql , docker, tomcat, 平时硬盘 io 也是 10M/s 级别, 假死时, cpu load 也才 0.2 左右,

    用 iotop 监控, 发现假死时最后的监控, 前三有两个都是阿里自己的服务!

    │Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread] │ 4572 be/4 www-data 8.33 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4514 be/4 www-data 10.39 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4624 be/4 mysql 7.14 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1400 be/4 root 9.99 M/s 0.00 B/s 0.00 % 99.99 % AliHids │ 4615 be/4 mysql 13.70 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4621 be/4 www-data 7.53 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 2366 be/4 dix 2.09 M/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2105 be/4 dix 10.59 M/s 0.00 B/s 0.00 % 99.99 % tmux new -s di │ 2357 be/4 dix 1222.61 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1142 be/4 root 3.10 M/s 0.00 B/s 0.00 % 99.99 % docker -d │ 1307 be/4 root 7.65 M/s 0.00 B/s 0.00 % 99.99 % AliYunDunUpdate │ 2767 be/4 dix 1099.74 K/s 1262.48 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1347 be/4 root 5.19 M/s 0.00 B/s 0.00 % 99.99 % AliYunDun │ 707 be/4 root 1201.24 K/s 0.00 B/s 0.00 % 99.99 % docker -d │ 947 be/4 mysql 4.69 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4598 be/4 mysql 1997.28 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 2945 be/4 mysql 2.03 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1966 be/4 ntp 6.41 M/s 0.00 B/s 0.00 % 99.99 % ntpd -p /var/run/ntpd.pid -g -u 103:109 │ 2359 be/4 dix 364.52 K/s 36.16 K/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2479 be/4 dix 198.08 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 3385 be/4 mysql 3.82 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 3591 be/4 mysql 1488.51 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1495 be/4 root 3.20 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 2106 be/4 dix 4.36 M/s 0.00 B/s 0.00 % 99.99 % -zsh │ 945 be/4 mysql 2.92 M/s 0.00 B/s 0.00 % 87.46 % mysqld │ 4432 be/4 root 4.12 M/s 0.00 B/s 0.00 % 84.23 % apache2 -DFOREGROUND │ 2352 be/4 dix 771.79 K/s 841.65 B/s 0.00 % 83.91 % java -Djava.util.lo~rtup.Bootstrap start │ 4614 be/4 mysql 1191.38 K/s 0.00 B/s 0.00 % 75.89 % mysqld │ 4560 be/4 mysql 1310.15 K/s 0.00 B/s 0.00 % 75.77 % mysqld │ 949 be/4 mysql 1904.40 K/s 0.00 B/s 0.00 % 64.58 % mysqld │ 4570 be/4 mysql 1189.74 K/s 0.00 B/s 0.00 % 58.15 % mysqld │ 4588 be/4 mysql 1231.24 K/s 0.00 B/s 0.00 % 57.72 % mysqld │ 3622 be/4 dix 2.24 M/s 0.00 B/s 0.00 % 56.63 % sshd: dix@pts/2 │ 925 be/4 mysql 62.06 K/s 0.00 B/s 0.00 % 51.01 % mysqld

    求是否有同样情况的朋友?

    阿里云是不是也是虚高的配置?然后各种复用, 将负载大的用户 压到众多普通用户服务器上?

    23 条回复    2016-08-13 10:14:12 +08:00
    LuoDiNate
        1
    LuoDiNate  
    OP
       2016-08-12 14:37:29 +08:00
    │Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s

    │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND

    │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop

    │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)]

    │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread]

    这是前三
    MiguelValentine
        2
    MiguelValentine  
       2016-08-12 14:38:32 +08:00
    我之前也遇到,两次。
    LuoDiNate
        3
    LuoDiNate  
    OP
       2016-08-12 14:45:01 +08:00
    @MiguelValentine 有解决办法么?
    MiguelValentine
        4
    MiguelValentine  
       2016-08-12 14:45:50 +08:00
    @LuoDiNate - -!怼过工单,跟你一样的情况。一口咬定我这的问题。。
    LuoDiNate
        5
    LuoDiNate  
    OP
       2016-08-12 14:56:59 +08:00
    @MiguelValentine 同一个 docker 镜像, 在配置更低的 aws 上跑了半年没出过一次问题, 我 docker 导出的 zip 包来过了, 一周宕机 4/5 次, 气死我了
    kozora
        6
    kozora  
       2016-08-12 14:58:32 +08:00
    阿里个位数的 IO 我也是怕了
    scys
        7
    scys  
       2016-08-12 15:17:39 +08:00
    阿里云跑任何 IO 都要小心: D
    niudaye
        8
    niudaye  
       2016-08-12 15:18:27 +08:00
    我的也是这样,刚开始一周挂四五次,现在就是重启后也打不开了。
    hgzz
        9
    hgzz  
       2016-08-12 15:55:33 +08:00
    我也遇到过很多次,后来还是把自己程序优化了一下,后面就再也没出现过了
    SourceMan
        10
    SourceMan  
       2016-08-12 16:12:19 +08:00
    我也是, 2 月份一次, 6 月份一次,全部站点挂掉
    查询原因是 IO 突然跑满,机器假死,只能控制台“硬重启”
    qcloud
        11
    qcloud  
       2016-08-12 16:17:49 +08:00
    @SourceMan 那么问题来了,是不是该换家主机商了?
    SourceMan
        12
    SourceMan  
       2016-08-12 16:18:33 +08:00
    @qcloud 转移备案好麻烦,企业主体,各种盖章
    yangdehua
        13
    yangdehua  
       2016-08-12 16:41:53 +08:00
    看看 io 能力是多少 lsblk -t -d
    SourceMan
        14
    SourceMan  
       2016-08-12 17:20:07 +08:00 via iPhone
    @yangdehua min-io 512
    lun10439547
        15
    lun10439547  
       2016-08-12 17:55:27 +08:00
    我已经 N 多次了。。。幸亏 不频繁。。。。也就一两个月重启一回。。。。。真烦
    raykwok
        16
    raykwok  
       2016-08-12 18:13:49 +08:00
    @SourceMan 据我的经验,一点都不麻烦啊,弄好材料盖好章,走流程就行了。长痛不如短痛。
    fangpeishi
        17
    fangpeishi  
       2016-08-12 18:27:12 +08:00
    主下 ECS 的 IO 控看看。遇到,一般都是 IOPS 打的高,然後假死了,得重。
    可以 SSD , 2 系的 CPU , IO 化看看。
    em70
        18
    em70  
       2016-08-12 18:28:39 +08:00
    mysql 部署到 RDS 去
    notgod
        19
    notgod  
       2016-08-12 18:29:50 +08:00 via iPhone
    你们试试 使用 nginx + pagespeed
    开缓存
    经常假死 nginx
    查日志 全部是缓存文件读取 slow 引起的问题


    这么多年这玩意还是没长进
    尽然升级降级功能都找不到 谁教我下?
    qcloud
        20
    qcloud  
       2016-08-12 19:12:17 +08:00
    @SourceMan 不用转移呀。。。
    billlee
        21
    billlee  
       2016-08-12 19:37:45 +08:00
    把云盾关了并删除
    jiongxiaobu
        22
    jiongxiaobu  
       2016-08-12 20:12:28 +08:00
    + 1
    ragnaroks
        23
    ragnaroks  
       2016-08-13 10:14:12 +08:00
    卸载云盾有一点用,但是原罪是 IO
    云磁盘还没我淘宝买的扩容盘快
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4281 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 04:09 PVG 12:09 LAX 21:09 JFK 00:09
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86