Ubuntu20.04,出现卡住,没有任何响应,怎么调查? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rwecho
V2EX    Ubuntu

Ubuntu20.04,出现卡住,没有任何响应,怎么调查?

  •  
  •   rwecho 2023-04-27 10:30:52 +08:00 4600 次点击
    这是一个创建于 900 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近有三台 ubuntu20.04 服务器,都是安装的桌面版本,最近有三台频繁出问题。(这三台都是用的国内的内存和硬盘品牌)

    出现的问题特征是没有任何响应,但是灯光正常,不是睡眠状态。如果正常接显示器了,显示器会有输出,甚至时间还在向前走,但是硬盘里面没有日志。

    日志 日志( syslog )显示从 4.24 11:36~4.26 13:38 之间没有日志产生

    系统 这是 4.26 上午 11:33 拍的照片。这个时候系统已经没有任何响应了, 包括 ssh 键盘鼠标,其中运行的服务也没有产生日志。

    这是 last 的信息 last

    我这里只看了 syslog syslog.1 日志,不知道从哪里还能看到更多硬件信息和状态。另外这三台机器都有 2060 显卡和 cuda 驱动。

    现在的有几个疑惑:

    1. linux 有没有类似蓝屏机制
    2. 如果是内存问题,机器的时间还在运行正常不?
    3. 如果是内存和硬盘问题,怎么确认和找出证据。
    4. 有没有可能是显卡驱动问题,但是我们已经有 10 几台 ubuntu20.04 的机器了
    18 条回复    2023-04-27 16:05:34 +08:00
    LJNlol
        1
    LJNlol  
       2023-04-27 10:47:24 +08:00
    我一般看日志用的都是 journalctl ( ubuntu 应该也有吧),可以试试看能不能找出有用的信息来。
    或许 OP 可以试着给服务器开个 ssh ,然后出问题了试着用 ssh 连上去排查一下,连不上那就是整个系统炸了一般。

    Linux 有 Kernel Panic ,但我个人没遇见过。一般桌面 linux 都是桌面环境崩掉,内核本身应该还是非常稳定的。
    希望有帮助
    fqzz
        2
    fqzz  
       2023-04-27 11:32:31 +08:00
    kernel log 在 /var/log/kern.log 里面可能会有有用的信息。

    盲猜很大概率是 linux kennel 和 nvidia driver 的问题。
    rwecho
        3
    rwecho  
    OP
       2023-04-27 12:00:52 +08:00
    @LJNlol #1 ssh 已经挂了。 我估计内核也挂了,我再去看看 journalctl
    LJNlol
        4
    LJNlol  
       2023-04-27 12:12:11 +08:00
    @rwecho 我记得有远程调试方法,可以看到 kernel panic 的那种。但是现在这个样子我感觉是硬件问题了...比如我的笔记本清灰之后没注意散热器安装压力,冷启动的时候 CPU 发热变形与主板接触不良,然后直接死机,也是没有任何 log 。后面松了下螺丝就好了
    rwecho
        5
    rwecho  
    OP
       2023-04-27 12:21:53 +08:00
    @LJNlol #4 我也怀疑和硬件有关系, 这批卖了 4 个机器, 三个都出问题。
    之前的批次都挺稳定的。
    LJNlol
        6
    LJNlol  
       2023-04-27 12:24:32 +08:00
    @rwecho 妈的这能忍,直接杀到经销商去。走采购的东西直接售后罢
    rwecho
        7
    rwecho  
    OP
       2023-04-27 12:28:49 +08:00
    @LJNlol 找不到原因。



    这是刚才看的 kern.log 的日志, 也是在这个期间没有产生信息
    rwecho
        8
    rwecho  
    OP
       2023-04-27 12:31:46 +08:00
    @LJNlol #6 在 jd 上面买的带 2060 显卡的 nuc

    还有没有什么办法能看卡住的时候系统发生了什么事情
    duke807
        9
    duke807  
       2023-04-27 12:36:45 +08:00 via Android   1
    alt+ctrl+F1~6 切换到终端模式
    然后看 dmesg 打印

    如果完全死掉,提前切终端模式,然后看有没有 kernel 死机打印

    更进一步,可以配置电脑硬件串口输出内核打印
    duke807
        10
    duke807  
       2023-04-27 12:37:46 +08:00 via Android
    出硬件故障不能指望 log 文件,因为已经来不及保存了
    LJNlol
        11
    LJNlol  
       2023-04-27 12:40:04 +08:00
    @rwecho nuc ? CPU 是可以拆卸的吗?还是整一个都是一体的?那我更怀疑硬件故障了...
    除此之外也真没啥办法了,到现在这个阶段真的很难去怀疑软件了,系统卡死的时候连 log 都记录不下来。除非整得像个搞嵌入式的一样:串口 /网口远程 Kernel DEBUG,如果都做到这种地步还是发现不了 Kernel Panic ,那 100%是硬件的锅了。
    abbottcn
        12
    abbottcn  
       2023-04-27 13:00:00 +08:00 via iPhone
    路过……
    贴一个不太相关的我遇到的问题。

    22.04 系统,
    配置好的科学计算集群,
    用户做了一次 apt upgrade ,
    然后调度器挂了……

    所有的信息都正常,就是 srun 不跑……

    降级到 22.04 初始版本就工作了……

    所有的东西,都是 apt 安装的……

    虽然工作机器也用 Ubuntu ,现在不敢轻易 apt upgrade 操作了。
    jzphx
        13
    jzphx  
       2023-04-27 13:01:54 +08:00
    有的主板必须接显示器,不然就会出现这种情况。我的就是这样,排查了很久,最后用 hdmi 欺骗器解决了
    StillLearing
        14
    StillLearing  
       2023-04-27 13:26:07 +08:00
    昨天刚遇到类似的情况,跑深度学习的时候突然就崩了。Ubuntu20.04 ,动鼠标键盘没反应(卡死状态),ssh 也上不去。昨天在 V 站查了下,先用 Memtest86+跑了下内存测试,可以 PASS 。有的朋友说可能是 gnome 的原因导致的,然后我就试了试关了 gnome 服务,目前还没卡死。我也贴个 log ,各位大佬帮我也看看吧。
    顺便贴一下配置:
    AMD R5 5500
    3090TI
    NV 驱动版本:525.105.17
    ```
    kernel: [24043.430436] BUG: Bad page map in process python pte:800000034525b845 pmd:383c16067
    kernel: [24043.430445] flags: 0x17ffffc0000008(dirty|node=0|zOne=2|lastcpupid=0x1fffff)
    kernel: [24043.430448] raw: 0017ffffc0000008 ffffe88f8e897308 ffffe88f8e897488 0000000000000000
    kernel: [24043.430449] raw: 0000000000000001 0000000000000000 00000001ffffff7f 0000000000000000
    kernel: [24043.430450] page dumped because: bad pte
    kernel: [24043.430450] addr:00007efb06b64000 vm_flags:08200073 anon_vma:ffffa025a9899bc8 mapping:0000000000000000 index:7efb06b64
    kernel: [24043.430452] file:(null) fault:0x0 mmap:0x0 readpage:0x0
    kernel: [24043.430456] CPU: 5 PID: 48686 Comm: python Tainted: P B OE 5.15.0-69-generic #76~20.04.1-Ubuntu
    ...
    ...
    ...
    python[48686]: segfault at ab ip 00000000004f1094 sp 00007ffe19640cf8 error 4 in python3.8[423000+1cc000]
    ```
    shijingshijing
        15
    shijingshijing  
       2023-04-27 13:31:39 +08:00
    9 楼正解,这种多半是桌面环境挂了,系统可能没有崩,切命令行就行。一般更新系统后,因为 gnome 或其他库的原因容易出现,然后就是硬件驱动,但是硬件驱动一般是直接挂,切不了命令行。
    mmdsun
        16
    mmdsun  
       2023-04-27 15:41:13 +08:00   1
    windows 和 linux 都有魔法键,当卡住的时候,键按下后可以让打印错误信息.

    linux 搜索:magical key
    windows 搜索:Forcing crash from keyboard

    配置下,卡住时候 按下看看
    ccxxjjjjjj
        17
    ccxxjjjjjj  
       2023-04-27 15:54:40 +08:00
    可能是一个帮助不大的回复

    2 年前装机的时候遇到过类似的情况:没有执行任何“重”操作,莫名其妙就会卡住,有时候鼠标移动一下就卡在那里了,卡住后只能强制重启。

    当时候经销商给配的确实是国产内存条中性能较差的(已经忘记是哪家的国产内存条了),换了内存后,2 年内除了断电很少关机,到现在为止再也没有出现过卡住的情况。所以建议先换掉内存试试。
    ccxxjjjjjj
        18
    ccxxjjjjjj  
       2023-04-27 16:05:34 +08:00
    说回来既然是采购的,完全可以走售后,而且你可以暗示是硬件问题。没必要折腾半天(我当初折腾了一周),后来粗暴的换了内存之后就解决了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4296 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 05:33 PVG 13:33 LAX 22:33 JFK 01:33
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86