我们在用 uos 的操作系统跑一些任务,cpu 消耗型,进程被操作系统干掉了,137 的退出码,但我们内存消耗很低,操作系统日志看不到任何错误信息,更别谈 OOM 了,请问有大佬能指导下怎么排查么?
11-02 20:04:44 [b152f9869d464b599c299bd152616354] [local] [threadPoolTaskExecutor-122] INFO -- exec result: ShellResult(exitStatus=137, out=command terminated with exit code 137)
查了节点 kubelet ,containerd ,/var/log/message 都没有有效的日志,没有头绪
服务器有 80 核 128G
1
blackeeper 2023-11-03 11:21:55 +08:00
看 resources.limits
|
2
julyclyde 2023-11-03 13:32:56 +08:00
137 是信号 9 啊
|
3
BG7ZAG 2023-11-03 14:14:30 +08:00
用 uos 的专业版还是免费版?专业版直接去找他们技术。免费版也可以去 deepin 问题问问~
|
4
waringid 2023-11-04 08:16:04 +08:00
11-02 20:04:44 [b152f9869d464b599c299bd152616354] [local] [threadPoolTaskExecutor-122] INFO -- exec result: ShellResult(exitStatus=137, out=command terminated with exit code 137)
这个线程退出提示的内容是容器里面的吧?容器里面的 Shell 退出要定位到具体的容器,通过容器内部的信息定位确认。在主机层面是很难定位容器内部应用的错误的 |
5
devopsdogdog 2023-11-04 10:11:01 +08:00
zombie 都有 9 个了, 被系统干掉了,要么就是大量资源没有释放,要么就是你任务太多不够用了,随机杀了一些经常,pod 应该有日志 或者事件吧
|
6
devopsdogdog 2023-11-04 10:13:54 +08:00
补一点 查看系统进程 和 线程数量 ,目测你的有点多 都 2000 多个了
|