借助 GPT ，将具体的现象、配置、排查方案写出来了，会有一点长，希望 V2 上的富有经验的大佬能给点头绪：

PVE/FnOS 固定早上 6 点附近硬重启排查记录

这是一台家用 Proxmox VE 主机，主要跑一个 FnOS/飞牛 NAS 虚拟机。最近多次出现早上 6 点附近自动重启，表现更像硬断电/硬复位，而不是系统内正常 reboot/shutdown 。下面是目前的硬件信息、排查过程和阶段性结论，想请大家帮忙判断更像主板/BIOS/ME/ACPI 、电源、SATA 控制器/硬盘链路，还是 PVE/FnOS/驱动层的问题。

1. 主要现象

PVE 主机多次在早上 6 点附近突然重启。
journalctl --list-boots 显示上一个 boot 在 5:59 左右戛然而止，随后 6:00/6:01 进入新 boot 。
重启前没有看到正常关机链路，也没有看到明确的 kernel panic 、MCE 、OOM 、pstore 崩溃记录。
NVMe SMART 的 Unsafe Shutdowns 会随这类重启增加，因此更像硬断电/硬复位。
重启前自建监控记录显示 CPU 温度、NVMe 温度、负载都不高。
问题常集中在早上 6 点附近，但不是每天必现。

2. 当前硬件和系统信息

PVE:

Proxmox VE: pve-manager 9.1.1
Kernel: 6.17.2-1-pve
Hostname: pve
Kernel cmdline:
- i915.enable_guc=3
- i915.max_vfs=7
- module_blacklist=xe

主板 / BIOS / CPU:

主板: MAXSUN MS-eSport Z890M
BIOS: B3.4D
BIOS Release Date: 06/16/2025
CPU: Intel Core Ultra 5 245K
CPU 线程: 14 CPUs，14 cores，1 thread per core
虚拟化: VT-x

内存:

当前总内存约 32GB
当前插了两条 DDR5 4800:
- Maxsun 16GB, Part Number MSD516G60AX5-D40M0
- JUHOR 16GB, Part Number JHE4800U4016JG
注意: 之前多次重启发生时只有一条 16GB 内存，2026-06-13 早上重启后才加了第二条内存。

系统盘:

NVMe: ZHITAI TiPro5000
NVMe SMART 中 Media and Data Integrity Errors = 0
但异常重启时 Unsafe Shutdowns 会增加。

PCI / 控制器:

板载 SATA:
- 80:17.0 Intel SATA controller [8086:7f62]
- 当前驱动: ahci
SATA 扩展卡:
- 83:00.0 ASMedia ASM1166 Serial ATA Controller [1b21:1166]
- 当前驱动: ahci
网卡:
- Realtek RTL8125 2.5GbE
之前测试中拔掉过 UPS USB ，只留过 USB 网卡；后续也拔掉过 USB 网卡做排除。

3. 当前硬盘和 FnOS 虚拟机配置

当前 PVE 能看到 9 块 SATA 硬盘。

板载 Intel SATA 上的 4 块盘:

sda  WDC WUH721816ALE6L4    4MGYAVMH    14.6T
sdb  WDC WD200EDGZ-11CNKA0  SSG538VD    18.2T
sdc  WDC WUH721816ALE6L4    2BJE0JTN    14.6T
sdd  WDC WUH721816ALE6L4    2JJGZEJB    14.6T

ASMedia ASM1166 上的 5 块盘:

sde  TOSHIBA MG08ACA14TE      5160A01BFRVH  12.7T
sdf  TOSHIBA DT01ACA300       38SJTMEAS      2.7T
sdg  WDC WD140EDGZ-11B1PA0    7LGHSPUK      12.7T
sdh  ST2000DM006-2DM164       Z4Z80PNS       1.8T
sdi  WDC WD100EMAZ-00WJTA0    JEKV1V2Z       9.1T

FnOS VM:

VMID: 105
Name: FnOS
Machine: q35
CPU: host
Cores: 8
Memory: 10144 MB
系统盘: sata0 local-lvm:vm-105-disk-0,size=200G
当前采用硬盘路径直通，不是整控制器直通。

当前 FnOS 直通盘:

sata1: /dev/disk/by-id/ata-TOSHIBA_MG08ACA14TE_5160A01BFRVH
sata2: /dev/disk/by-id/ata-TOSHIBA_DT01ACA300_38SJTMEAS
sata3: /dev/disk/by-id/ata-WDC_WD140EDGZ-11B1PA0_7LGHSPUK
sata4: /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4Z80PNS
sata5: /dev/disk/by-id/ata-WDC_WD100EMAZ-00WJTA0_JEKV1V2Z
scsi1: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_4MGYAVMH
scsi2: /dev/disk/by-id/ata-WDC_WD200EDGZ-11CNKA0_SSG538VD
scsi3: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2BJE0JTN
scsi4: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2JJGZEJB

说明:

之前曾经用过 SATA 控制器直通。
后来为了排查，改成了单盘 by-id 直通。
也测试过 vfio-pci 绑定 SATA 控制器，但后来按“硬盘直通”思路取消了 PCI 隔离，目前两个 SATA 控制器都由 PVE 的 ahci 接管。

4. 已记录到的异常重启证据

部分 boot history:

Sat 2026-05-30 06:01:21 进入新 boot
Tue 2026-06-09 05:59:57 上一个 boot 截止
Tue 2026-06-09 06:00:39 进入新 boot
Sat 2026-06-13 05:59:44 上一个 boot 截止
Sat 2026-06-13 06:01:14 进入新 boot

2026-06-13 早上这次比较关键:

上一个 boot: 2026-06-11 22:58:33 到 2026-06-13 05:59:44
新 boot: 2026-06-13 06:01:14
重启前最后 heartbeat:
- 时间: 2026-06-13T05:59:44+08:00
- FnOS 状态: running
- 负载: 0.10 0.11 0.09
- 内存: 总计约 15465M，可用约 3452M
- CPU/NVMe 温度约 43-44C
- NVMe Unsafe Shutdowns 在这次异常后从 96 增到 97

这次重启发生时，原来那 4 块板载 SATA 硬盘已经被拔掉/不参与，只保留了 ASM1166 扩展卡上的 5 块盘。因此“板载 SATA 那 4 块盘或板载 SATA 控制器是必要触发条件”这个假设基本被削弱；至少已经做过“仅扩展卡 5 块盘”的测试，且仍然复现 6 点附近异常重启。

2026-06-13 10:35 到 10:54 还有一次关机/开机:

这是人为加内存、插回 4 块硬盘导致的维护关机。
这次没有增加 NVMe Unsafe Shutdowns，和 6 点异常重启性质不同。

5. 已做过的排查和变更

电源/外部供电:

怀疑过智能插座/插线板。
同一个插线板上接了一个断电就会熄灭的台灯，异常期间台灯未灭。
这能降低“外部市电/插线板整体断电”的可能性，但不能排除主机电源、SATA 供电线、瞬态负载、主板复位。

BIOS:

进 BIOS 看过，没有发现 RTC 定时开机配置。
没有开启断电后自动开机。
没找到明确的 watchdog 设置。
BIOS 中能看到一些电源管理选项，但没有发现能解释固定 6 点自动启动/重启的配置。

PVE 服务:

停掉过一些不必要的 PVE 集群/HA 相关服务。
启动日志里仍有 corosync/quorum_initialize failed 之类信息，但这类信息出现在开机阶段，更像单节点/集群服务状态问题，不像重启前触发原因。

监控:

配了自定义 heartbeat 和 boot report:
- /var/log/pve-watch/heartbeat.log
- /var/log/pve-watch/boot-report.log
这些日志能记录每分钟左右的温度、负载、内存、FnOS 状态、NVMe SMART 、上一次 heartbeat 等。
目前证据显示异常发生前温度、负载并不高。

USB:

UPS 的 USB 线曾经拔掉。
USB 网卡也拔掉做过排查。
目前没有看到 USB 设备直接导致重启的证据。

FnOS / 硬盘直通:

之前 FnOS 使用过 SATA 控制器直通。
后来改成硬盘 by-id 直通，以便做交叉测试。
测试过只接 5 块盘，仍然在 2026-06-13 早上 6 点附近重启。
这 5 块盘是在 ASM1166 SATA 扩展卡上；当时板载 SATA 的 4 块盘已经拔掉/不参与，所以“禁用/不使用板载 SATA 硬盘链路”这个方向已经测试过。
后续又插回原来 4 块盘，并将 9 块盘都直通给 FnOS 。

硬盘 SMART / SATA 错误:

插回原来 4 块盘后，smartd 报过两块盘 ATA error count 增加:

/dev/sda WDC WUH721816ALE6L4 4MGYAVMH:
ATA error count increased from 0 to 578

/dev/sdc WDC WUH721816ALE6L4 2BJE0JTN:
ATA error count increased from 476 to 2113

这说明原来那组板载 SATA 上至少有两块盘/链路存在历史或累计 ATA 错误。
但 2026-06-13 早上 6 点那次重启发生时这 4 块盘不在机器上，所以这些错误不能单独解释那次 6 点重启。

6. 目前倾向排除或证据较弱的方向

普通系统内 reboot/shutdown: 没有正常关机链路。
温度过高: 重启前监控温度正常。
明确 OOM: 没看到 OOM 证据。
明确 kernel panic/MCE: 当前没有抓到 panic 、MCE 、pstore 证据。
仅由原来 4 块板载 SATA 硬盘或板载 SATA 控制器导致: 可能性明显下降，因为只保留 ASM1166 扩展卡上 5 块盘、板载 SATA 4 块盘不参与时也重启过。
仅由新加的第二条内存导致: 不成立，因为第二条内存是 2026-06-13 早上重启后才加的。

7. 仍保留的重点怀疑方向

主板 / BIOS / ME / ACPI / 电源管理 / 平台复位问题
- 启动时有较多 ACPI BIOS Error ，例如 Could not resolve symbol [\_SB.UBTC.RUCC]。
- 不确定这些 ACPI 错误是否只是常见无害日志，还是和 USB/电源管理/平台复位有关。
电源或供电瞬态问题
- 台灯未灭只能说明外部供电没有整体断。
- 不能排除 PSU 、SATA 电源线、硬盘同时唤醒/负载变化导致的瞬时掉压或主板复位。
SATA 扩展卡 ASM1166 / SATA 链路 / 硬盘组合问题
- 只接 ASM1166 扩展卡上的 5 块盘时也出现 6 点重启。
- 原来板载 SATA 4 块盘中又有两块出现 ATA error count 。
- 可能不是单一硬盘，而是硬盘、供电线、SATA 线、扩展卡、主板 PCIe/SATA 子系统共同触发。
FnOS 6 点附近任务触发的负载
- 异常重启前 FnOS 是 running 。
- 如果 FnOS 在 6 点有备份、校验、索引、清理、SMART 、快照、Time Machine 相关任务，可能触发大量磁盘 IO 或硬盘唤醒。
- 但这更像“触发器”，不一定是根因，因为宿主机是硬复位级别。
PVE 9.1 / kernel 6.17 / 新平台驱动兼容性
- Z890 + Core Ultra 平台较新。
- 也可能和 kernel 6.17 、AHCI 、IOMMU 、虚拟化、iGPU SR-IOV 参数有关。
- 可以考虑用旧一点的 PVE kernel 6.8 做对照测试。

8. 想请大家帮忙判断的问题

这种每次 journalctl 截止在 5:59 ，随后 6:00/6:01 新 boot ，且 NVMe Unsafe Shutdowns 增加的情况，是否基本可以判断为硬复位/断电类，而不是 Linux 正常崩溃？
MAXSUN Z890M / Arrow Lake / Core Ultra 245K 在 Linux/PVE 下，启动日志里的这些 ACPI BIOS Error 是否可能和定时硬复位有关？
ASM1166 SATA 扩展卡 + 多块机械硬盘，在每天固定任务时间附近触发整机 reset ，是否有人遇到过？
如果要进一步区分主板、电源、SATA 扩展卡、硬盘、PVE kernel/FnOS 任务，下一步最有效的交叉测试应该怎么设计？
是否建议优先:
- 换 PSU / 单独给硬盘供电；
- 换 SATA 扩展卡；
- BIOS 升级/降级或更新 ME ；
- PVE 切回 kernel 6.8 ；
- FnOS 停机跨过 6 点；
- 跑 MemTest86 ；
- 暂停 FnOS 所有 6 点附近任务；
- 给 PVE 配串口/netconsole/远端 syslog 抓崩溃前最后输出？

9. 我目前自己的阶段性判断

现在最不像的是普通软件层面的正常重启；更像硬断电/硬复位。由于只保留 5 块 ASM1166 硬盘时仍然重启，不能再简单归因于原来那 4 块硬盘。但原来 4 块盘中两块有明显 ATA error count ，也说明存储链路确实存在问题。

目前我个人更倾向优先怀疑:

主板/BIOS/ME/ACPI/平台电源管理或复位问题；
PSU 或 SATA 供电瞬态问题；
ASM1166/SATA/硬盘组合在 FnOS 6 点任务触发下造成硬件级异常；
PVE kernel 6.17 在这套较新平台上的兼容性问题。

下一步我倾向做的排除测试:

FnOS 关机跨过 6 点，验证 PVE 空载是否还重启。
若 PVE 空载稳定，再启动 FnOS 但关闭 6 点附近所有任务。
用 PVE kernel 6.8 做对照。
跑 MemTest86 ，尤其现在是两条不同品牌 DDR5 。
对 /dev/sda 和 /dev/sdc 做完整 SMART 检查和长测。
有条件的话换 PSU 或给机械硬盘单独供电测试。
有条件的话换掉 ASM1166 扩展卡，或反过来只用板载 SATA 跨 6 点做对照；“仅扩展卡 5 盘”已经测过且复现。

重启

硬件

电源

27 replies • 2026-06-13 23:48:50 +08:00

shinciao

14h 8m ago

之前遇到过类似的问题，也是自组硬件的 pve ，从某天开始经常早上一起来发现已断电关机。因为电源用的是二手矿电，没做排除直接买了新电源换上就好了。这种表现我更倾向是硬件问题，但是你这个如果确定是时间比较固定的话就不好说了。

EVJohn

13h 28m ago

老哥，有没有考虑过是电能质量的问题？

就是在那个电源前面接个 UPS ，或者是接个大疆“一度电”这种户外电源试一下。我感觉应该是电能质量波动，所以让你的那个机器重启。

或者像上面那位老哥说的一样，你去弄个电源回来做 AB 测试一下。

YoYoLikesCiCi

13h 25m ago

@EVJohn 我接了 UPS ，bk650 ，而且如果是电源问题的话，不应该会这么准时吧？

memorybox

13h 24m ago

可以先尝试最简单的排障方法；异常重启后，把`dmesg`和/var/syslog 相关时间段的信息直接粘贴给 Gemini 或者 GPT ；

绝大多数时候很靠谱；

memorybox

13h 23m ago

现在其实就可以把`dmesg`启动之后的 1000 行，直接粘贴给 Gemini ，看看它说啥；

EVJohn

13h 20m ago

有个别的思路？你把你机器的时区往前或者往后调几个小时看一下

ETiV

13h 7m ago via iPhone

六点前运行了啥 cronjob

单纯硬件不会有这么准的计时，所以应该是软件运行了什么东西，引发了硬件故障、或者电流过大导致保护性断电重启。

或者你现在重启一下，看它会不会 24 小时后才崩，而不是六点。

监控是怎么做的，采集频率拉高，把进程列表也采集下来。有什么智能插座的话，也可以把用电功率监控一下。

SilenceLL

12h 38m ago via iPhone

让 codex 自己连上去看

YoYoLikesCiCi

12h 11m ago

@ETiV 检查过了，没有任何 cronjob ，也不是 24 小时后崩的，基本都是早上六点左右，唯一的例外是有一次晚上七点， @SilenceLL 就是让 codex 自己接入终端去查询的，他也找不到具体原因，各种交叉测试我也做了

YoYoLikesCiCi

12h 6m ago

@memorybox 我让 codex 接管终端完整的查询过日志，没有获取到有用信息；
@EVJohn 我试试，看时间是跟着我调整的时间变还是依然东八区六点

KagurazakaNyaa

11h 51m ago

是不是 bios 里有设置什么 watchdog 之类的，然后这个时间点系统忘记喂狗了导致被重置了

YoYoLikesCiCi

11h 45m ago

@KagurazakaNyaa 也怀疑过这个，进 BIOS 没看到类似的配置项，而且这个现象是二月份才出现的，在这之前都正常（去年双十一配的机器）。

inreality

8h 57m ago via Android

也遇到过每天凌晨 pvr 主机自动重启的问题，软件层面上信息很有限。后来尝试了两个办法解决：
1. 更换更大功率的电源
2. nvme 温度过高导致断连（可能和硬盘体质有关），这解释了为什么软件层面记录不下原因，后来加装个小风扇解决

4seasons

7h 48m ago via iPhone

建议直接插个显示器，然后物理监控摄像头对着，看看 6 点左右是直接掉电重启还是正常执行的重启。
如果是正常重启，那就还要排查是不是有脚本，不仅仅是 corn ，systemd ，干了坏事。

IvanLi127

7h 26m ago

好准时。要我说直接 u 盘弄个 cd live 系统，主机进这个 live 系统，连上网对好时间，然后啥也不干，看看能不能挺过 6 点。这样应该能排除一些硬件问题。没问题后再考虑从移动硬盘启动全新的同版本 pve 挂着看看炸不炸。

YoYoLikesCiCi

7h 26m ago

@4seasons 正常的关机系统会留下记录的，codex 翻过日志都是突然中断

YoYoLikesCiCi

7h 25m ago

@IvanLi127 好主意，我过两天试试，现在是参考楼上的建议更改了系统时间，观察重启是六点还是推迟到我更改的时间的六点

v0rtix

7h 2m ago

用 claude code 自己 ssh 连上去 debug ，上次也是类似的问题，发现是内存有一条不识别了，重新插拔就好了

billccn

5h 42m ago

我看到这个问题就觉得更改系统时间把 6 点这个变量隔离出来是第一步，如果 AI 想不出来，那我觉得这个模型还比较笨，至少缺乏思考能力。

还有一些思路给楼主参考：除非是黑客每天用 0-day 定时攻击，要不然软件层面触发的重启不会完全不留痕迹。硬件的故障不会准时发生，除非是软件的操作影响到了硬件。

我觉得很大的一个可能是电网或者同电路上的电器在 6 点会进行一个定时的操作，造成了浪涌或者杂波通过劣质的电源影响到了你的系统。

qiuyuxiao

5h 13m ago

监控一下网络流量，或者干脆把网线拔了，立马就能现原形。

NamelessRain

5h 1m ago

你这样第一步:直接进 pe 烤机 24 小时如果有问题就是硬件
如果没问题就是系统层面软件冲突但是我们也要看是不是外部设备掉链引起的
第二步：空着 pve 拔出所有硬盘只留系统盘如果还关机我们就能确定是 pve 系统有 bug 直接备份一份配置然后重置 pve

NamelessRain

5h 0m ago

@NamelessRain #21 顺带 usb 设备也拔出

Reitzo

4h 43m ago

把 PVE 和 FnOS 的系统时区临时调整为西八区（比北京时间慢 16 小时），但保持机器联网。
如果重启依然发生在北京时间早上 6 点，说明是外部环境（如电网杂波、智能插座定时、UPS 行为）或纯粹的硬件累积定时（如 ME/看门狗超时）。
如果重启跟随换算后的时间推迟了 16 小时，100% 是 FnOS 或 PVE 内部某个隐藏的定时任务（ Cron/Systemd Timer ）触发了硬件崩溃。

iceecream

4h 39m ago

开 audit 对关机进行审计
以前碰到过一个类似问题，经常不定时关机，能在审计日志中留下正常关机的信息。但是排除软件问题，最后换了服务器主板解决。
对了我的服务器是 Linux 。

gulugu

4h 12m ago

1.主板内存控制有问题，可能要升级 bios 2.内存条有问题换个内存试试，只用单条测试 3.系统有问题，尝试重装一下系统 4.供电有问题

YoYoLikesCiCi

3h 50m ago

@iceecream 我这个是定时关机，就很头疼； @gulugu 打算升级下 bios 试试，内存问题的话，感觉不应该这么准时吧

gulugu

2h 13m ago

@YoYoLikesCiCi 要每一次都能定时定点复现问题才能叫准时

PVE 主机两三天就会在早上 六点左右重启一次，尝试过各种排查方法，还是找不到原因。

PVE/FnOS 固定早上 6 点附近硬重启排查记录

1. 主要现象

2. 当前硬件和系统信息

3. 当前硬盘和 FnOS 虚拟机配置

4. 已记录到的异常重启证据

5. 已做过的排查和变更

6. 目前倾向排除或证据较弱的方向

7. 仍保留的重点怀疑方向

8. 想请大家帮忙判断的问题

9. 我目前自己的阶段性判断

PVE 主机两三天就会在早上六点左右重启一次，尝试过各种排查方法，还是找不到原因。