借助 GPT ,将具体的现象、配置、排查方案写出来了,会有一点长,希望 V2 上的富有经验的大佬能给点头绪:
PVE/FnOS 固定早上 6 点附近硬重启排查记录
这是一台家用 Proxmox VE 主机,主要跑一个 FnOS/飞牛 NAS 虚拟机。最近多次出现早上 6 点附近自动重启,表现更像硬断电/硬复位,而不是系统内正常 reboot/shutdown 。下面是目前的硬件信息、排查过程和阶段性结论,想请大家帮忙判断更像主板/BIOS/ME/ACPI 、电源、SATA 控制器/硬盘链路,还是 PVE/FnOS/驱动层的问题。
1. 主要现象
- PVE 主机多次在早上 6 点附近突然重启。
journalctl --list-boots显示上一个 boot 在 5:59 左右戛然而止,随后 6:00/6:01 进入新 boot 。- 重启前没有看到正常关机链路,也没有看到明确的 kernel panic 、MCE 、OOM 、pstore 崩溃记录。
- NVMe SMART 的
Unsafe Shutdowns会随这类重启增加,因此更像硬断电/硬复位。 - 重启前自建监控记录显示 CPU 温度、NVMe 温度、负载都不高。
- 问题常集中在早上 6 点附近,但不是每天必现。
2. 当前硬件和系统信息
PVE:
- Proxmox VE:
pve-manager 9.1.1 - Kernel:
6.17.2-1-pve - Hostname:
pve -
Kernel cmdline:
i915.enable_guc=3i915.max_vfs=7module_blacklist=xe
主板 / BIOS / CPU:
- 主板:
MAXSUN MS-eSport Z890M - BIOS:
B3.4D - BIOS Release Date:
06/16/2025 - CPU:
Intel Core Ultra 5 245K - CPU 线程:
14 CPUs,14 cores,1 thread per core - 虚拟化:
VT-x
内存:
- 当前总内存约
32GB -
当前插了两条 DDR5 4800:
Maxsun 16GB, Part NumberMSD516G60AX5-D40M0JUHOR 16GB, Part NumberJHE4800U4016JG
- 注意: 之前多次重启发生时只有一条 16GB 内存,2026-06-13 早上重启后才加了第二条内存。
系统盘:
- NVMe:
ZHITAI TiPro5000 - NVMe SMART 中
Media and Data Integrity Errors = 0 - 但异常重启时
Unsafe Shutdowns会增加。
PCI / 控制器:
-
板载 SATA:
80:17.0 Intel SATA controller [8086:7f62]- 当前驱动:
ahci
-
SATA 扩展卡:
83:00.0 ASMedia ASM1166 Serial ATA Controller [1b21:1166]- 当前驱动:
ahci
-
网卡:
Realtek RTL8125 2.5GbE
- 之前测试中拔掉过 UPS USB ,只留过 USB 网卡;后续也拔掉过 USB 网卡做排除。
3. 当前硬盘和 FnOS 虚拟机配置
当前 PVE 能看到 9 块 SATA 硬盘。
板载 Intel SATA 上的 4 块盘:
sda WDC WUH721816ALE6L4 4MGYAVMH 14.6T
sdb WDC WD200EDGZ-11CNKA0 SSG538VD 18.2T
sdc WDC WUH721816ALE6L4 2BJE0JTN 14.6T
sdd WDC WUH721816ALE6L4 2JJGZEJB 14.6T
ASMedia ASM1166 上的 5 块盘:
sde TOSHIBA MG08ACA14TE 5160A01BFRVH 12.7T
sdf TOSHIBA DT01ACA300 38SJTMEAS 2.7T
sdg WDC WD140EDGZ-11B1PA0 7LGHSPUK 12.7T
sdh ST2000DM006-2DM164 Z4Z80PNS 1.8T
sdi WDC WD100EMAZ-00WJTA0 JEKV1V2Z 9.1T
FnOS VM:
- VMID:
105 - Name:
FnOS - Machine:
q35 - CPU:
host - Cores:
8 - Memory:
10144 MB - 系统盘:
sata0 local-lvm:vm-105-disk-0,size=200G - 当前采用硬盘路径直通,不是整控制器直通。
当前 FnOS 直通盘:
sata1: /dev/disk/by-id/ata-TOSHIBA_MG08ACA14TE_5160A01BFRVH
sata2: /dev/disk/by-id/ata-TOSHIBA_DT01ACA300_38SJTMEAS
sata3: /dev/disk/by-id/ata-WDC_WD140EDGZ-11B1PA0_7LGHSPUK
sata4: /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4Z80PNS
sata5: /dev/disk/by-id/ata-WDC_WD100EMAZ-00WJTA0_JEKV1V2Z
scsi1: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_4MGYAVMH
scsi2: /dev/disk/by-id/ata-WDC_WD200EDGZ-11CNKA0_SSG538VD
scsi3: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2BJE0JTN
scsi4: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2JJGZEJB
说明:
- 之前曾经用过 SATA 控制器直通。
- 后来为了排查,改成了单盘 by-id 直通。
- 也测试过
vfio-pci绑定 SATA 控制器,但后来按“硬盘直通”思路取消了 PCI 隔离,目前两个 SATA 控制器都由 PVE 的ahci接管。
4. 已记录到的异常重启证据
部分 boot history:
Sat 2026-05-30 06:01:21 进入新 boot
Tue 2026-06-09 05:59:57 上一个 boot 截止
Tue 2026-06-09 06:00:39 进入新 boot
Sat 2026-06-13 05:59:44 上一个 boot 截止
Sat 2026-06-13 06:01:14 进入新 boot
2026-06-13 早上这次比较关键:
- 上一个 boot:
2026-06-11 22:58:33到2026-06-13 05:59:44 - 新 boot:
2026-06-13 06:01:14 -
重启前最后 heartbeat:
- 时间:
2026-06-13T05:59:44+08:00 - FnOS 状态:
running - 负载:
0.10 0.11 0.09 - 内存: 总计约
15465M,可用约3452M - CPU/NVMe 温度约
43-44C - NVMe
Unsafe Shutdowns在这次异常后从96增到97
- 时间:
这次重启发生时,原来那 4 块板载 SATA 硬盘已经被拔掉/不参与,只保留了 ASM1166 扩展卡上的 5 块盘。因此“板载 SATA 那 4 块盘或板载 SATA 控制器是必要触发条件”这个假设基本被削弱;至少已经做过“仅扩展卡 5 块盘”的测试,且仍然复现 6 点附近异常重启。
2026-06-13 10:35 到 10:54 还有一次关机/开机:
- 这是人为加内存、插回 4 块硬盘导致的维护关机。
- 这次没有增加 NVMe
Unsafe Shutdowns,和 6 点异常重启性质不同。
5. 已做过的排查和变更
电源/外部供电:
- 怀疑过智能插座/插线板。
- 同一个插线板上接了一个断电就会熄灭的台灯,异常期间台灯未灭。
- 这能降低“外部市电/插线板整体断电”的可能性,但不能排除主机电源、SATA 供电线、瞬态负载、主板复位。
BIOS:
- 进 BIOS 看过,没有发现 RTC 定时开机配置。
- 没有开启断电后自动开机。
- 没找到明确的 watchdog 设置。
- BIOS 中能看到一些电源管理选项,但没有发现能解释固定 6 点自动启动/重启的配置。
PVE 服务:
- 停掉过一些不必要的 PVE 集群/HA 相关服务。
- 启动日志里仍有
corosync/quorum_initialize failed之类信息,但这类信息出现在开机阶段,更像单节点/集群服务状态问题,不像重启前触发原因。
监控:
-
配了自定义 heartbeat 和 boot report:
/var/log/pve-watch/heartbeat.log/var/log/pve-watch/boot-report.log
- 这些日志能记录每分钟左右的温度、负载、内存、FnOS 状态、NVMe SMART 、上一次 heartbeat 等。
- 目前证据显示异常发生前温度、负载并不高。
USB:
- UPS 的 USB 线曾经拔掉。
- USB 网卡也拔掉做过排查。
- 目前没有看到 USB 设备直接导致重启的证据。
FnOS / 硬盘直通:
- 之前 FnOS 使用过 SATA 控制器直通。
- 后来改成硬盘 by-id 直通,以便做交叉测试。
- 测试过只接 5 块盘,仍然在 2026-06-13 早上 6 点附近重启。
- 这 5 块盘是在 ASM1166 SATA 扩展卡上;当时板载 SATA 的 4 块盘已经拔掉/不参与,所以“禁用/不使用板载 SATA 硬盘链路”这个方向已经测试过。
- 后续又插回原来 4 块盘,并将 9 块盘都直通给 FnOS 。
硬盘 SMART / SATA 错误:
- 插回原来 4 块盘后,
smartd报过两块盘 ATA error count 增加:
/dev/sda WDC WUH721816ALE6L4 4MGYAVMH:
ATA error count increased from 0 to 578
/dev/sdc WDC WUH721816ALE6L4 2BJE0JTN:
ATA error count increased from 476 to 2113
- 这说明原来那组板载 SATA 上至少有两块盘/链路存在历史或累计 ATA 错误。
- 但 2026-06-13 早上 6 点那次重启发生时这 4 块盘不在机器上,所以这些错误不能单独解释那次 6 点重启。
6. 目前倾向排除或证据较弱的方向
- 普通系统内
reboot/shutdown: 没有正常关机链路。 - 温度过高: 重启前监控温度正常。
- 明确 OOM: 没看到 OOM 证据。
- 明确 kernel panic/MCE: 当前没有抓到 panic 、MCE 、pstore 证据。
- 仅由原来 4 块板载 SATA 硬盘或板载 SATA 控制器导致: 可能性明显下降,因为只保留 ASM1166 扩展卡上 5 块盘、板载 SATA 4 块盘不参与时也重启过。
- 仅由新加的第二条内存导致: 不成立,因为第二条内存是 2026-06-13 早上重启后才加的。
7. 仍保留的重点怀疑方向
-
主板 / BIOS / ME / ACPI / 电源管理 / 平台复位问题
- 启动时有较多 ACPI BIOS Error ,例如
Could not resolve symbol [\_SB.UBTC.RUCC]。 - 不确定这些 ACPI 错误是否只是常见无害日志,还是和 USB/电源管理/平台复位有关。
- 启动时有较多 ACPI BIOS Error ,例如
-
电源或供电瞬态问题
- 台灯未灭只能说明外部供电没有整体断。
- 不能排除 PSU 、SATA 电源线、硬盘同时唤醒/负载变化导致的瞬时掉压或主板复位。
-
SATA 扩展卡 ASM1166 / SATA 链路 / 硬盘组合问题
- 只接 ASM1166 扩展卡上的 5 块盘时也出现 6 点重启。
- 原来板载 SATA 4 块盘中又有两块出现 ATA error count 。
- 可能不是单一硬盘,而是硬盘、供电线、SATA 线、扩展卡、主板 PCIe/SATA 子系统共同触发。
-
FnOS 6 点附近任务触发的负载
- 异常重启前 FnOS 是 running 。
- 如果 FnOS 在 6 点有备份、校验、索引、清理、SMART 、快照、Time Machine 相关任务,可能触发大量磁盘 IO 或硬盘唤醒。
- 但这更像“触发器”,不一定是根因,因为宿主机是硬复位级别。
-
PVE 9.1 / kernel 6.17 / 新平台驱动兼容性
- Z890 + Core Ultra 平台较新。
- 也可能和 kernel 6.17 、AHCI 、IOMMU 、虚拟化、iGPU SR-IOV 参数有关。
- 可以考虑用旧一点的 PVE kernel 6.8 做对照测试。
8. 想请大家帮忙判断的问题
-
这种每次
journalctl截止在 5:59 ,随后 6:00/6:01 新 boot ,且 NVMeUnsafe Shutdowns增加的情况,是否基本可以判断为硬复位/断电类,而不是 Linux 正常崩溃? -
MAXSUN Z890M / Arrow Lake / Core Ultra 245K 在 Linux/PVE 下,启动日志里的这些 ACPI BIOS Error 是否可能和定时硬复位有关?
-
ASM1166 SATA 扩展卡 + 多块机械硬盘,在每天固定任务时间附近触发整机 reset ,是否有人遇到过?
-
如果要进一步区分主板、电源、SATA 扩展卡、硬盘、PVE kernel/FnOS 任务,下一步最有效的交叉测试应该怎么设计?
-
是否建议优先:
- 换 PSU / 单独给硬盘供电;
- 换 SATA 扩展卡;
- BIOS 升级/降级或更新 ME ;
- PVE 切回 kernel 6.8 ;
- FnOS 停机跨过 6 点;
- 跑 MemTest86 ;
- 暂停 FnOS 所有 6 点附近任务;
- 给 PVE 配串口/netconsole/远端 syslog 抓崩溃前最后输出?
9. 我目前自己的阶段性判断
现在最不像的是普通软件层面的正常重启;更像硬断电/硬复位。由于只保留 5 块 ASM1166 硬盘时仍然重启,不能再简单归因于原来那 4 块硬盘。但原来 4 块盘中两块有明显 ATA error count ,也说明存储链路确实存在问题。
目前我个人更倾向优先怀疑:
- 主板/BIOS/ME/ACPI/平台电源管理或复位问题;
- PSU 或 SATA 供电瞬态问题;
- ASM1166/SATA/硬盘组合在 FnOS 6 点任务触发下造成硬件级异常;
- PVE kernel 6.17 在这套较新平台上的兼容性问题。
下一步我倾向做的排除测试:
- FnOS 关机跨过 6 点,验证 PVE 空载是否还重启。
- 若 PVE 空载稳定,再启动 FnOS 但关闭 6 点附近所有任务。
- 用 PVE kernel 6.8 做对照。
- 跑 MemTest86 ,尤其现在是两条不同品牌 DDR5 。
- 对
/dev/sda和/dev/sdc做完整 SMART 检查和长测。 - 有条件的话换 PSU 或给机械硬盘单独供电测试。
- 有条件的话换掉 ASM1166 扩展卡,或反过来只用板载 SATA 跨 6 点做对照;“仅扩展卡 5 盘”已经测过且复现。
