如何说服领导同意升级内核到 5.4? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhoudaiyu
V2EX    问与答

如何说服领导同意升级内核到 5.4?

  •  
  •   zhoudaiyu
    PRO
    2022-08-30 21:34:13 +08:00 via iPhone 6020 次点击
    这是一个创建于 1138 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前有 6 台物理机系统是 RHEL 7.6 内核大版本是 3.10 ,跑着 K8s 1.21 ,环境是灰度环境。但是由于内核版本较低,有时候会产生 CPU SOFTLOCK 的问题,机器负载飙升,影响稳定性。查了一下相关的文档,都让升级内核,但是没有说具体的要升级到的版本。我的意思是直接 yum 安装一个长期支持版本的内核( 5.4 ),支持启动时加载不同版本的内核,可以随时修改后 reboot 生效。但是领导担心跨的版本较大,他的思路是升 3.10 最新版小版本的内核,但是我觉得 3.10 太老了,升级了也不一定好使,而且长期支持版本也比较稳定,没必要担心。领导让我调研大厂现在用的最多的每个版本,这玩意也没处调研吧。大家怎么看这个事?
    72 条回复    2022-08-31 23:29:53 +08:00
    kokutou
        1
    kokutou  
       2022-08-30 21:35:21 +08:00 via Android   1
    听领导的
    idblife
        2
    idblife  
       2022-08-30 21:36:51 +08:00 via iPhone
    领导沙雕
    paradoxs
        3
    paradoxs  
       2022-08-30 21:38:10 +08:00   28
    你写个书面申请

    “如升级后发生意想不到的错误,导致系统故障的,本人承担所有责任。”
    签名:
    toomoy
        4
    toomoy  
       2022-08-30 21:38:16 +08:00
    听领导的
    wdhwg001
        5
    wdhwg001  
       2022-08-30 21:43:58 +08:00
    rhel 的内核你都换…这真的是你自己的问题了。

    你这是真把 rhel 当 centos 用了,连 rhel 的内核是啥概念都不知道,天知道你自己用了多少野包。

    rhel 的内核是有非常巨量的 backport 的,而且你商用多半有授权,有稳定性问题如果能定位到哪个 patch 的话,还能去找红帽专门给你 backport 下来。
    zhoudaiyu
        6
    zhoudaiyu  
    OP
    PRO
       2022-08-30 21:47:43 +08:00 via iPhone
    @wdhwg001 说是 RHEL ,但是支持早就没了
    zhoudaiyu
        7
    zhoudaiyu  
    OP
    PRO
       2022-08-30 21:49:00 +08:00 via iPhone
    @wdhwg001 我们就是把 RHEL 当 centos 用啊,从来不用 Rhel 的 yum 源。而且我升了一台测试节点了,啥事没有
    DonaidTrump
        8
    DonaidTrump  
       2022-08-30 21:53:40 +08:00 via iPhone
    换 arch 吧,每天一滚,时刻最新
    hefish
        9
    hefish  
       2022-08-30 21:56:45 +08:00
    @tulongtou 哈哈,我就是这么搞的
    kokutou
        10
    kokutou  
       2022-08-30 21:58:34 +08:00 via Android
    @zhoudaiyu
    那你们领导是 sb
    wdhwg001
        11
    wdhwg001  
       2022-08-30 22:05:27 +08:00
    @zhoudaiyu 那你首先要做的是劝领导升到 7.9 ,不用野包,然后在 eol 之前跑路就是了。
    zhoudaiyu
        12
    zhoudaiyu  
    OP
    PRO
       2022-08-30 22:07:22 +08:00 via iPhone
    @kokutou 兄弟,都是泪啊,我们新装机器上来就把 RHEL 的源换成阿里的 CENTOS ,领导让做的
    zhoudaiyu
        13
    zhoudaiyu  
    OP
    PRO
       2022-08-30 22:09:12 +08:00 via iPhone
    @wdhwg001 野包?就没几个不野的,都 CENTOS 和 epel 直接怼
    rrfeng
        14
    rrfeng  
       2022-08-30 22:16:05 +08:00 via Android   1
    rhel 就是当 centos 用的啊,如果有 rhel 授权,会来坛子问要不要升级内核??
    felixcode
        15
    felixcode  
       2022-08-30 22:19:15 +08:00 via Android
    rhel 加各种野包,的确风险比较大。
    billlee
        16
    billlee  
       2022-08-30 22:31:45 +08:00
    CentOS 7.6 内核的 overlayfs 确实有问题,但为什么不先尝试升级到最新 7.x 版本呢?
    billlee
        17
    billlee  
       2022-08-30 22:33:07 +08:00
    至于大厂用的版本,就不用想了,大厂都有自己的内核团队,用自己的分支的
    zhoudaiyu
        18
    zhoudaiyu  
    OP
    PRO
       2022-08-30 22:35:59 +08:00 via iPhone
    @billlee 领导不想动操作系统的版本,想最小化升级
    idblife
        19
    idblife  
       2022-08-30 22:44:52 +08:00
    @zhoudaiyu
    k8s 在 3.10 内核下各种问题,不但有 cpu 的,还有网络的。
    不能升级内核的话,建议跑路
    zsj950618
        20
    zsj950618  
       2022-08-30 22:46:50 +08:00 via Android
    哈哈哈,五十步笑百步
    zhoudaiyu
        21
    zhoudaiyu  
    OP
    PRO
       2022-08-30 22:52:12 +08:00 via iPhone
    @zsj950618 怎么说兄弟
    zhoudaiyu
        22
    zhoudaiyu  
    OP
    PRO
       2022-08-30 22:54:53 +08:00 via iPhone
    @idblife 感觉是有一些问题,有一些奇奇怪怪问题,但是开源组件的 issue 又找不到
    fox0001
        23
    fox0001  
       2022-08-30 23:02:17 +08:00
    领导的想法很“领导”,毕竟谁都不想出了问题去背锅。但是 RHEL 换内核这种做法,确实不推荐……我建议是升级系,甚至是换系统,一步到位。

    当然,作为打工的,争取过就算了。结果不到你选择。
    icyalala
        24
    icyalala  
       2022-08-30 23:09:18 +08:00 via iPhone
    为什么不先去搞清楚问题的原因、哪个版本修复的呢?
    zhzy0077
        25
    zhzy0077  
       2022-08-30 23:10:24 +08:00   4
    这领导还真不一定有问题 现在可能你们所有的运维都没升级系统内核的经验 也没有具体的流程来讲怎么无感知的升级你的物理机

    你先升级个小版本试试 成本较低 风险也较小 真出意外了回滚可能也方便(这三个是主要考量) 还能积累经验 要是运气好升级完问题就修复了就更好了(后面这俩是添头)

    等升级了小版本证明: 1. 升级小版本不顶用, 2. 有能力在生产环境升级系统内核, 3. 积累了经验和具体流程方法

    我觉得领导不会反对你升级大版本的.
    july1995
        26
    july1995  
       2022-08-30 23:12:09 +08:00 via iPhone
    领导说啥就是啥。
    zhoudaiyu
        27
    zhoudaiyu  
    OP
    PRO
       2022-08-30 23:14:06 +08:00 via iPhone
    @icyalala 目前还没查到具体哪个版本能解决,但是看样子 3.10 可能悬了
    zhoudaiyu
        28
    zhoudaiyu  
    OP
    PRO
       2022-08-30 23:16:47 +08:00 via iPhone
    @zhzy0077 你说的有道理,明天先升级一台机器的小版本试试观察一周吧,不行再说
    billlee
        29
    billlee  
       2022-08-30 23:17:26 +08:00
    只换内核不是你们以为的最小升级,RHEL 的 core 仓库组件都有大量 backport 补丁,看起来版本很低,但实际上很新。你换个 upstream 的最新 3.10.x 说不定反而是降级
    Soo0
        30
    Soo0  
       2022-08-30 23:30:54 +08:00 via iPhone
    听领导的,先按他说的做,不行 错了在说别的。
    makelove
        31
    makelove  
       2022-08-30 23:31:45 +08:00
    你们公司干什么的?造火箭吗,如果是那领导这么保守还可以说得过去
    akira
        32
    akira  
       2022-08-31 05:38:24 +08:00
    未知情况这么多, 是我也不同意。
    idblife
        33
    idblife  
       2022-08-31 08:09:45 +08:00 via iPhone
    @zhoudaiyu
    guthub 有篇说 3.10 内核问题的文章,找下给你领导看看。
    liaohongxing
        34
    liaohongxing  
       2022-08-31 08:14:51 +08:00
    上古 7.x 确实没啥可升级的,风险还巨大,我就不爱用 rhel 系, 它维持稳定的前提是每个包都巨老
    2022 都过完了,还是用 3.x 的内核。
    zhoudaiyu
        35
    zhoudaiyu  
    OP
    PRO
       2022-08-31 08:31:26 +08:00 via iPhone
    @idblife 兄弟有链接不,我打开截图给他
    litguy
        36
    litguy  
       2022-08-31 09:22:33 +08:00
    5.4.42-200.el7.x86_64
    我们在用这个版本,后面一直还有更新,但是因为我们内核模块的原因,最近 2 年停留在这个版本没动,很稳定,没问题。如果你们只是跑应用的,就更不用担心了。
    serialt
        37
    serialt  
       2022-08-31 09:29:15 +08:00
    @zhoudaiyu 把 RHEL 源换成 CentOS 那跟直接用 CentOS 有什么区别
    dsggnbsp
        38
    dsggnbsp  
       2022-08-31 09:47:08 +08:00
    作为外行的来说,你要求就得你负责,2022 了还不躺平吗,听领导的 乖听话~
    echo1937
        39
    echo1937  
       2022-08-31 09:58:28 +08:00
    够狠的,“没有说具体的要升级到的版本”,就直接安装 5.4 LTS ,
    把生产系统当 Arch 来滚动吗?换个 RHEL8/9 或者 Ubuntu 都比这靠谱。
    zhoudaiyu
        40
    zhoudaiyu  
    OP
    PRO
       2022-08-31 09:59:55 +08:00 via iPhone
    @serialt 这玩意不是我能决定的啊,我 来之前就这样了
    zhoudaiyu
        41
    zhoudaiyu  
    OP
    PRO
       2022-08-31 10:00:09 +08:00 via iPhone
    @echo1937 灰度,不是生产
    zhoudaiyu
        42
    zhoudaiyu  
    OP
    PRO
       2022-08-31 10:10:08 +08:00 via iPhone
    @litguy 也是跑 K8s 吗
    ICB
        43
    ICB  
       2022-08-31 10:12:45 +08:00
    领导只管你一个人吗?要不是就他说升啥就升啥,也不是你自己家的东西,操那些闲心你是为了啥?
    shyangs
        44
    shyangs  
       2022-08-31 10:22:19 +08:00
    @zhoudaiyu

    境、境、灰度境、生境.

    灰度境不就是小的生境,一部分用已用上了的,叫灰度.
    zhoudaiyu
        45
    zhoudaiyu  
    OP
    PRO
       2022-08-31 10:30:39 +08:00 via iPhone
    @shyangs 我们的灰度就是自己测的,
    Zy143L
        46
    Zy143L  
       2022-08-31 11:39:44 +08:00 via Android   3
    国人讲究调和择中
    给领导说直接换系统 他可能就会同意升级内核吧
    choury
        47
    choury  
       2022-08-31 12:18:54 +08:00 via Android
    5.4 太低了,bpf 都不好用
    msg7086
        48
    msg7086  
       2022-08-31 13:50:09 +08:00
    稳定版系统本来就不太好随便换内核。
    3.10 内核很老吗?
    kernel-3.10.0-1160.76.1.el7 ,更新时间 2022-07-26 ,才过了一个月你就嫌老?

    你一定要换的话也是优先考虑换 UEK ,企业用的,elrepo 的 kernel-lt 只是官方打包,测试强度比不上企业级软件。
    (当然如果你们不考虑稳定性的话随便换就是了,只要你能说服领导用野生内核包。)
    litguy
        49
    litguy  
       2022-08-31 14:18:09 +08:00
    @zhoudaiyu 最底层跑的我们自己开发的分布式存储,上面跑的 openstack
    victorc
        50
    victorc  
       2022-08-31 14:30:38 +08:00
    你们 leader 的思路是正确的,线上环境要谨慎,没事别瞎搞,各种软件(包括 linux 内核)非常复杂,质量无法保证,经常会有意外发生,别给自己找事
    salmon5
        51
    salmon5  
       2022-08-31 14:41:04 +08:00
    领导是对的,你现在都是小问题,可控;如果倒腾一番,就不可控了
    salmon5
        52
    salmon5  
       2022-08-31 14:41:33 +08:00
    劳心劳力被吊打的还是 leader
    BeforeTooLate
        53
    BeforeTooLate  
       2022-08-31 14:52:21 +08:00
    就我觉得领导是对的吗?
    dynastysea
        54
    dynastysea  
       2022-08-31 15:09:12 +08:00
    赞同升级的,一般是没经历过毒打,只能说业务规模不大。但凡是上点规模的公司,面对复杂的业务场景,内核升级都是重中之重,非必要是没人敢随意升级的。内核里潜在的坑真的太多太多了
    cnbatch
        55
    cnbatch  
       2022-08-31 15:10:04 +08:00
    最好先升级到 RHEL 7.9 。稳妥起见可以只升级一台再看看后续。

    鉴于 RHEL 7.9 对于 7.6 而言只是常规更新,所以可以试下这样跟你的领导讲:不如把系统常规更新、补丁包都安装好,说不定问题就修复了。
    shika
        56
    shika  
       2022-08-31 15:49:49 +08:00 via Android
    我升级过 5.4 ,我觉得你领导是对的
    waye121
        57
    waye121  
       2022-08-31 15:56:36 +08:00
    这是换个内核能解决的问题吗?
    有问题 case by case 的解决,kernel 和 硬件 强相关,是不是把机器一并换了。
    newmlp
        58
    newmlp  
       2022-08-31 16:06:10 +08:00
    先升了再说,管他领导不领导,他还能把你手铐起来不让你升咋地
    ziseyinzi
        59
    ziseyinzi  
       2022-08-31 16:07:27 +08:00
    你领导是对的。只是咖啡喝多了会心悸,不至于开刀换个心脏。
    Remember
        60
    Remember  
       2022-08-31 16:08:33 +08:00
    生产环境升级内核?生产环境都是整个机器替换掉的。

    3.10 内核是 rhel7 ,8 年前 2014 年发布,rhel8 是 4.18 ,2019 年发布,所以你机器年龄已经是 4~8 岁了,是时候换掉了。
    就算不换,也最好是分批轮流整体升级到 rhel8 ,rhel9 去。
    Cat7373
        61
    Cat7373  
       2022-08-31 16:24:33 +08:00
    如果一个东西你看不懂,但它在正常工作,那就不要动它,有点小问题可以打打补丁
    Cat7373
        62
    Cat7373  
       2022-08-31 16:24:49 +08:00
    @Cat7373 #61 领导视角
    ltkun
        63
    ltkun  
       2022-08-31 16:28:37 +08:00 via Android
    升呗 新内核对硬件肯定支持的更好 只要不是古董硬件放弃支持那种
    wanguorui123
        64
    wanguorui123  
       2022-08-31 16:39:54 +08:00
    先备份镜像在升级
    runwu2022
        65
    runwu2022  
       2022-08-31 17:31:40 +08:00
    k8s 平滑下线节点,升级完成后再上线。对 k8s 集群没有影响,为什么不升级?
    tiedan
        66
    tiedan  
       2022-08-31 17:43:02 +08:00
    给领导讲收益就行,讲清楚收益,剩下的由领导自己决定
    leoleoleo
        67
    leoleoleo  
       2022-08-31 17:49:33 +08:00
    直接升级内核,在有一点规模的业务上根本不敢想象。做内核升级,需要整个团队和业务团队共同确认,做技术论证,回归测试啥的。万一你们有业务用了某个内核特性,一旦新版本不支持了,产线上跑的业务咋办,基本上都是新业务从头开始开发就在新内核上跑的,生产上才会上新的内核支持业务。已经上线的业务去搞内核升级,真的是没事给自己找事啊。如果你定义的灰度环境,就是自己玩的技术调研环境,那就是只要不影响其他同事的工作,想咋玩就咋玩呀。
    cubecube
        68
    cubecube  
       2022-08-31 18:25:11 +08:00
    红帽的 backport 和二进制兼容,最好还是别破坏了.
    你可能不知道 rh 的 java8 有最新的 shenandoah gc ,我们正在用..换别的 jdk11 都没这个好
    pmispig
        69
    pmispig  
       2022-08-31 18:41:18 +08:00
    如果你是 java 的应用,可以考虑直接升级 rhel8 或者 suse/opensuse 之类的,可以直接用到比较新的内核。我小伙伴内核升级到了 4.19.
    sometime
        71
    sometime  
       2022-08-31 20:47:57 +08:00
    如果是自己用,升!直接用最新的,如果上了生产,听领导的,反正不用你担责任
    deorth
        72
    deorth  
       2022-08-31 23:29:53 +08:00 via Android
    给运维提问题,不要提解决方案。管好自己一亩三分地
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2178 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 00:27 PVG 08:27 LAX 17:27 JFK 20:27
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86