rwecho
V2EX  ›  Ubuntu

Ubuntu20.04,出现卡住,没有任何响应,怎么调查?

  •  
  •   rwecho · Apr 27, 2023 · 5309 views
    This topic created in 1126 days ago, the information mentioned may be changed or developed.

    最近有三台 ubuntu20.04 服务器,都是安装的桌面版本,最近有三台频繁出问题。(这三台都是用的国内的内存和硬盘品牌)

    出现的问题特征是没有任何响应,但是灯光正常,不是睡眠状态。如果正常接显示器了,显示器会有输出,甚至时间还在向前走,但是硬盘里面没有日志。

    日志 日志( syslog )显示从 4.24 11:36~4.26 13:38 之间没有日志产生

    系统 这是 4.26 上午 11:33 拍的照片。这个时候系统已经没有任何响应了, 包括 ssh 键盘鼠标,其中运行的服务也没有产生日志。

    这是 last 的信息 last

    我这里只看了 syslog syslog.1 日志,不知道从哪里还能看到更多硬件信息和状态。另外这三台机器都有 2060 显卡和 cuda 驱动。

    现在的有几个疑惑:

    1. linux 有没有类似蓝屏机制
    2. 如果是内存问题,机器的时间还在运行正常不?
    3. 如果是内存和硬盘问题,怎么确认和找出证据。
    4. 有没有可能是显卡驱动问题,但是我们已经有 10 几台 ubuntu20.04 的机器了
    18 replies    2023-04-27 16:05:34 +08:00
    LJNlol
        1
    LJNlol  
       Apr 27, 2023
    我一般看日志用的都是 journalctl ( ubuntu 应该也有吧),可以试试看能不能找出有用的信息来。
    或许 OP 可以试着给服务器开个 ssh ,然后出问题了试着用 ssh 连上去排查一下,连不上那就是整个系统炸了一般。

    Linux 有 Kernel Panic ,但我个人没遇见过。一般桌面 linux 都是桌面环境崩掉,内核本身应该还是非常稳定的。
    希望有帮助
    fqzz
        2
    fqzz  
       Apr 27, 2023
    kernel log 在 /var/log/kern.log 里面可能会有有用的信息。

    盲猜很大概率是 linux kennel 和 nvidia driver 的问题。
    rwecho
        3
    rwecho  
    OP
       Apr 27, 2023
    @LJNlol #1 ssh 已经挂了。 我估计内核也挂了,我再去看看 journalctl
    LJNlol
        4
    LJNlol  
       Apr 27, 2023
    @rwecho 我记得有远程调试方法,可以看到 kernel panic 的那种。但是现在这个样子我感觉是硬件问题了...比如我的笔记本清灰之后没注意散热器安装压力,冷启动的时候 CPU 发热变形与主板接触不良,然后直接死机,也是没有任何 log 。后面松了下螺丝就好了😂
    rwecho
        5
    rwecho  
    OP
       Apr 27, 2023
    @LJNlol #4 我也怀疑和硬件有关系, 这批卖了 4 个机器, 三个都出问题。
    之前的批次都挺稳定的。
    LJNlol
        6
    LJNlol  
       Apr 27, 2023
    @rwecho 妈的这能忍,直接杀到经销商去🤣。走采购的东西直接售后罢
    rwecho
        7
    rwecho  
    OP
       Apr 27, 2023
    @LJNlol 找不到原因。



    这是刚才看的 kern.log 的日志, 也是在这个期间没有产生信息
    rwecho
        8
    rwecho  
    OP
       Apr 27, 2023
    @LJNlol #6 在 jd 上面买的带 2060 显卡的 nuc

    还有没有什么办法能看卡住的时候系统发生了什么事情 😡😡😡
    duke807
        9
    duke807  
       Apr 27, 2023 via Android   ❤️ 1
    alt+ctrl+F1~6 切换到终端模式
    然后看 dmesg 打印

    如果完全死掉,提前切终端模式,然后看有没有 kernel 死机打印

    更进一步,可以配置电脑硬件串口输出内核打印
    duke807
        10
    duke807  
       Apr 27, 2023 via Android
    出硬件故障不能指望 log 文件,因为已经来不及保存了
    LJNlol
        11
    LJNlol  
       Apr 27, 2023
    @rwecho nuc ? CPU 是可以拆卸的吗?还是整一个都是一体的?那我更怀疑硬件故障了...
    除此之外也真没啥办法了,到现在这个阶段真的很难去怀疑软件了,系统卡死的时候连 log 都记录不下来。除非整得像个搞嵌入式的一样:串口 /网口远程 Kernel DEBUG😂,如果都做到这种地步还是发现不了 Kernel Panic ,那 100%是硬件的锅了。
    abbottcn
        12
    abbottcn  
       Apr 27, 2023 via iPhone
    路过……
    贴一个不太相关的我遇到的问题。

    22.04 系统,
    配置好的科学计算集群,
    用户做了一次 apt upgrade ,
    然后调度器挂了……

    所有的信息都正常,就是 srun 不跑……

    降级到 22.04 初始版本就工作了……

    所有的东西,都是 apt 安装的……

    虽然工作机器也用 Ubuntu ,现在不敢轻易 apt upgrade 操作了。
    jzphx
        13
    jzphx  
       Apr 27, 2023
    有的主板必须接显示器,不然就会出现这种情况。我的就是这样,排查了很久,最后用 hdmi 欺骗器解决了
    StillLearing
        14
    StillLearing  
       Apr 27, 2023
    昨天刚遇到类似的情况,跑深度学习的时候突然就崩了。Ubuntu20.04 ,动鼠标键盘没反应(卡死状态),ssh 也上不去。昨天在 V 站查了下,先用 Memtest86+跑了下内存测试,可以 PASS 。有的朋友说可能是 gnome 的原因导致的,然后我就试了试关了 gnome 服务,目前还没卡死。我也贴个 log ,各位大佬帮我也看看吧。
    顺便贴一下配置:
    AMD R5 5500
    3090TI
    NV 驱动版本:525.105.17
    ```
    kernel: [24043.430436] BUG: Bad page map in process python pte:800000034525b845 pmd:383c16067
    kernel: [24043.430445] flags: 0x17ffffc0000008(dirty|node=0|zone=2|lastcpupid=0x1fffff)
    kernel: [24043.430448] raw: 0017ffffc0000008 ffffe88f8e897308 ffffe88f8e897488 0000000000000000
    kernel: [24043.430449] raw: 0000000000000001 0000000000000000 00000001ffffff7f 0000000000000000
    kernel: [24043.430450] page dumped because: bad pte
    kernel: [24043.430450] addr:00007efb06b64000 vm_flags:08200073 anon_vma:ffffa025a9899bc8 mapping:0000000000000000 index:7efb06b64
    kernel: [24043.430452] file:(null) fault:0x0 mmap:0x0 readpage:0x0
    kernel: [24043.430456] CPU: 5 PID: 48686 Comm: python Tainted: P B OE 5.15.0-69-generic #76~20.04.1-Ubuntu
    ...
    ...
    ...
    python[48686]: segfault at ab ip 00000000004f1094 sp 00007ffe19640cf8 error 4 in python3.8[423000+1cc000]
    ```
    shijingshijing
        15
    shijingshijing  
       Apr 27, 2023
    9 楼正解,这种多半是桌面环境挂了,系统可能没有崩,切命令行就行。一般更新系统后,因为 gnome 或其他库的原因容易出现,然后就是硬件驱动,但是硬件驱动一般是直接挂,切不了命令行。
    mmdsun
        16
    mmdsun  
       Apr 27, 2023   ❤️ 1
    windows 和 linux 都有魔法键,当卡住的时候,键按下后可以让打印错误信息.

    linux 搜索:magical key
    windows 搜索:Forcing crash from keyboard

    配置下,卡住时候 按下看看
    ccxxjjjjjj
        17
    ccxxjjjjjj  
       Apr 27, 2023
    可能是一个帮助不大的回复

    2 年前装机的时候遇到过类似的情况:没有执行任何“重”操作,莫名其妙就会卡住,有时候鼠标移动一下就卡在那里了,卡住后只能强制重启。

    当时候经销商给配的确实是国产内存条中性能较差的(已经忘记是哪家的国产内存条了),换了内存后,2 年内除了断电很少关机,到现在为止再也没有出现过卡住的情况。所以建议先换掉内存试试。
    ccxxjjjjjj
        18
    ccxxjjjjjj  
       Apr 27, 2023
    说回来既然是采购的,完全可以走售后,而且你可以暗示是硬件问题。没必要折腾半天(我当初折腾了一周),后来粗暴的换了内存之后就解决了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   949 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 170ms · UTC 21:12 · PVG 05:12 · LAX 14:12 · JFK 17:12
    ♥ Do have faith in what you're doing.