公司有一批服务器装了 AMD 的 EPYC 7313 或者 EPYC 7513,但是大部分服务器跑我们的业务时频率就会上不去 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
gouchaoer2
V2EX    程序员

公司有一批服务器装了 AMD 的 EPYC 7313 或者 EPYC 7513,但是大部分服务器跑我们的业务时频率就会上不去

  •  
  •   gouchaoer2 2022-11-07 14:13:47 +08:00 2741 次点击
    这是一个创建于 1069 天前的主题,其中的信息可能已经有所发展或是发生改变。
    只有一台服务器是正常的(全程能达到 3600MHz 的 boost 频率),其它大部分服务器跑任务。这个任务就是 gpu 解压 h264 视频,然后传给 cpu ,每秒大概 3.6G/s 的速度。这个时候 cpupower monitor 查看频率在 1500MHz 到 2500MHz 左右,到不了 3000MHz 的满频率(更不要说 3600MHz 的 boost 频率了)。当这个任务停了,再用 stress 指令就能压满 cpu 了。

    已经排除的原因:
    1 、已经 NUMA 、cTDP 、boost 、BIOS 的节能
    2 、AVX2 指令已经测试过,能压满频率,并没有降低频率
    3 、接服务器 BMC 带外看 cpu 的温度是正常的,但是电压我看不懂,是不是电压原因,如下:

    12 条回复    2022-11-09 22:09:59 +08:00
    gouchaoer2
        1
    gouchaoer2  
    OP
       2022-11-07 14:27:38 +08:00
    其实这个问题还是之前的那个问题: https://v2ex.com/t/884141#reply28
    我以为解决了,其实根本没有解决
    echo1937
        2
    echo1937  
       2022-11-07 14:34:14 +08:00
    还是 ffmpeg 的问题?
    litguy
        3
    litguy  
       2022-11-07 15:09:27 +08:00
    @gouchaoer2 我看到一个回答,你试试和你们系统匹配不 ?
    litguy
        4
    litguy  
       2022-11-07 15:09:35 +08:00
    BIOS/Platform Configuration
    -> Power and Performance Options
    -> Power Regulator
    [*] OS Control Mode
    litguy
        5
    litguy  
       2022-11-07 15:14:12 +08:00
    还可以试试这个命令 cpupower frequency-set -g performance
    ZRS
        6
    ZRS  
       2022-11-07 15:15:37 +08:00 via iPhone
    看看 TDP 是不是跑满了,不是所有的任务负载都反映在主频上
    gouchaoer2
        7
    gouchaoer2  
    OP
       2022-11-07 18:12:21 +08:00
    @ZRS 怎么看 TDP 跑满没有呢?
    gouchaoer2
        8
    gouchaoer2  
    OP
       2022-11-07 18:12:59 +08:00
    cpupower -g performance 这个已经试过了,还有 Power Regulator 这个 BIOS 里没有
    secondwtq
        9
    secondwtq  
       2022-11-07 21:27:22 +08:00
    turbostat 试下,我这 Intel 是可以显示功耗的
    (注意对于 Intel CPU ,这里显示的应该是 RAPL 提供的一个估计值,是通过一个数学模型算出来的,并不是直接测量功耗)
    gouchaoer2
        10
    gouchaoer2  
    OP
       2022-11-08 09:46:53 +08:00
    @secondwtq
    @ZRS
    @litguy
    这次真的结帖定了,定位到问题了,就是 cTDP 不够,虽然 AMD 官方标称 cTDP 是 180W ,但是可能是我们采购的主板供电有问题,必须把 cTDP 调大几十 W 才行
    haikouwang
        11
    haikouwang  
       2022-11-09 11:04:05 +08:00 via Android
    amd 的 u 出名的大家找 bug
    gouchaoer2
        12
    gouchaoer2  
    OP
       2022-11-09 22:09:59 +08:00
    @haikouwang 这不是 AMD 的原因,是机箱主板的原因,我们这批服务器主板有某知名大厂,有某小厂,我们的采购干了 3 件蠢事:1 、把 8 条小容量内存换成 4 跟大容量内存,导致只能用 4 通道速度减半 2 、把有 2 个 NVDEC 的 quadro 显卡换成了“更强劲”某显卡(结果只有 1 个 NVDEC )导致解码性能不够,结果需要 2 张 3 、就是搬来服务器主板大厂的没问题,结果这个小厂的除了问题,我 debug 了好久好久才找到原因

    不过经过这件事,我对服务器性能调优也有了一个更高的认识吧
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1000 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 18:35 PVG 02:35 LAX 11:35 JFK 14:35
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86