最近有三台 ubuntu20.04 服务器,都是安装的桌面版本,最近有三台频繁出问题。(这三台都是用的国内的内存和硬盘品牌)
出现的问题特征是没有任何响应,但是灯光正常,不是睡眠状态。如果正常接显示器了,显示器会有输出,甚至时间还在向前走,但是硬盘里面没有日志。
日志( syslog )显示从 4.24 11:36~4.26 13:38 之间没有日志产生
这是 4.26 上午 11:33 拍的照片。这个时候系统已经没有任何响应了, 包括 ssh 键盘鼠标,其中运行的服务也没有产生日志。
这是 last 的信息
我这里只看了 syslog syslog.1 日志,不知道从哪里还能看到更多硬件信息和状态。另外这三台机器都有 2060 显卡和 cuda 驱动。
现在的有几个疑惑:
1
LJNlol 2023-04-27 10:47:24 +08:00
我一般看日志用的都是 journalctl ( ubuntu 应该也有吧),可以试试看能不能找出有用的信息来。
或许 OP 可以试着给服务器开个 ssh ,然后出问题了试着用 ssh 连上去排查一下,连不上那就是整个系统炸了一般。 Linux 有 Kernel Panic ,但我个人没遇见过。一般桌面 linux 都是桌面环境崩掉,内核本身应该还是非常稳定的。 希望有帮助 |
2
fqzz 2023-04-27 11:32:31 +08:00
kernel log 在 /var/log/kern.log 里面可能会有有用的信息。
盲猜很大概率是 linux kennel 和 nvidia driver 的问题。 |
4
LJNlol 2023-04-27 12:12:11 +08:00
@rwecho 我记得有远程调试方法,可以看到 kernel panic 的那种。但是现在这个样子我感觉是硬件问题了...比如我的笔记本清灰之后没注意散热器安装压力,冷启动的时候 CPU 发热变形与主板接触不良,然后直接死机,也是没有任何 log 。后面松了下螺丝就好了😂
|
8
rwecho OP |
9
duke807 2023-04-27 12:36:45 +08:00 via Android 1
alt+ctrl+F1~6 切换到终端模式
然后看 dmesg 打印 如果完全死掉,提前切终端模式,然后看有没有 kernel 死机打印 更进一步,可以配置电脑硬件串口输出内核打印 |
10
duke807 2023-04-27 12:37:46 +08:00 via Android
出硬件故障不能指望 log 文件,因为已经来不及保存了
|
11
LJNlol 2023-04-27 12:40:04 +08:00
@rwecho nuc ? CPU 是可以拆卸的吗?还是整一个都是一体的?那我更怀疑硬件故障了...
除此之外也真没啥办法了,到现在这个阶段真的很难去怀疑软件了,系统卡死的时候连 log 都记录不下来。除非整得像个搞嵌入式的一样:串口 /网口远程 Kernel DEBUG😂,如果都做到这种地步还是发现不了 Kernel Panic ,那 100%是硬件的锅了。 |
12
abbottcn 2023-04-27 13:00:00 +08:00 via iPhone
路过……
贴一个不太相关的我遇到的问题。 22.04 系统, 配置好的科学计算集群, 用户做了一次 apt upgrade , 然后调度器挂了…… 所有的信息都正常,就是 srun 不跑…… 降级到 22.04 初始版本就工作了…… 所有的东西,都是 apt 安装的…… 虽然工作机器也用 Ubuntu ,现在不敢轻易 apt upgrade 操作了。 |
13
jzphx 2023-04-27 13:01:54 +08:00
有的主板必须接显示器,不然就会出现这种情况。我的就是这样,排查了很久,最后用 hdmi 欺骗器解决了
|
14
StillLearing 2023-04-27 13:26:07 +08:00
昨天刚遇到类似的情况,跑深度学习的时候突然就崩了。Ubuntu20.04 ,动鼠标键盘没反应(卡死状态),ssh 也上不去。昨天在 V 站查了下,先用 Memtest86+跑了下内存测试,可以 PASS 。有的朋友说可能是 gnome 的原因导致的,然后我就试了试关了 gnome 服务,目前还没卡死。我也贴个 log ,各位大佬帮我也看看吧。
顺便贴一下配置: AMD R5 5500 3090TI NV 驱动版本:525.105.17 ``` kernel: [24043.430436] BUG: Bad page map in process python pte:800000034525b845 pmd:383c16067 kernel: [24043.430445] flags: 0x17ffffc0000008(dirty|node=0|zone=2|lastcpupid=0x1fffff) kernel: [24043.430448] raw: 0017ffffc0000008 ffffe88f8e897308 ffffe88f8e897488 0000000000000000 kernel: [24043.430449] raw: 0000000000000001 0000000000000000 00000001ffffff7f 0000000000000000 kernel: [24043.430450] page dumped because: bad pte kernel: [24043.430450] addr:00007efb06b64000 vm_flags:08200073 anon_vma:ffffa025a9899bc8 mapping:0000000000000000 index:7efb06b64 kernel: [24043.430452] file:(null) fault:0x0 mmap:0x0 readpage:0x0 kernel: [24043.430456] CPU: 5 PID: 48686 Comm: python Tainted: P B OE 5.15.0-69-generic #76~20.04.1-Ubuntu ... ... ... python[48686]: segfault at ab ip 00000000004f1094 sp 00007ffe19640cf8 error 4 in python3.8[423000+1cc000] ``` |
15
shijingshijing 2023-04-27 13:31:39 +08:00
9 楼正解,这种多半是桌面环境挂了,系统可能没有崩,切命令行就行。一般更新系统后,因为 gnome 或其他库的原因容易出现,然后就是硬件驱动,但是硬件驱动一般是直接挂,切不了命令行。
|
16
mmdsun 2023-04-27 15:41:13 +08:00 1
windows 和 linux 都有魔法键,当卡住的时候,键按下后可以让打印错误信息.
linux 搜索:magical key windows 搜索:Forcing crash from keyboard 配置下,卡住时候 按下看看 |
17
ccxxjjjjjj 2023-04-27 15:54:40 +08:00
可能是一个帮助不大的回复
2 年前装机的时候遇到过类似的情况:没有执行任何“重”操作,莫名其妙就会卡住,有时候鼠标移动一下就卡在那里了,卡住后只能强制重启。 当时候经销商给配的确实是国产内存条中性能较差的(已经忘记是哪家的国产内存条了),换了内存后,2 年内除了断电很少关机,到现在为止再也没有出现过卡住的情况。所以建议先换掉内存试试。 |
18
ccxxjjjjjj 2023-04-27 16:05:34 +08:00
说回来既然是采购的,完全可以走售后,而且你可以暗示是硬件问题。没必要折腾半天(我当初折腾了一周),后来粗暴的换了内存之后就解决了。
|