请教运维大佬， strace -p [pid] 没有任何输出，但是该 pid 占用 CPU 百分百

Distributions

中文资源站

› 网易开源镜像站

This topic created in 1844 days ago, the information mentioned may be changed or developed.

我们有一套 GatewayWorker 程序，分配 4 条进程服务昨天更新代码，一段时间之后出现某几条进程 cpu 占用 100%，用 strace 跟踪该 pid，没有任何信息输出，请教大佬们有没有排除问题的思路初步怀疑是由于客户端某个操作，触发了程序内部的死循环，导致，但是程序大大说没发现有什么死循环的代码

pid

死循环

strace

CPU

16 replies • 2021-06-15 17:20:06 +08:00

x1596357

Jun 11, 2021

直接 gdb attach 进去，断点就是循环的代码。

fengjianxinghun

Jun 11, 2021

strace 只能追踪 syscall，假如死循环代码没有触发 syscall 就不会有输出，直接 gdb -p $pid 就行了

LaoK666

Jun 11, 2021

pstack 打印下堆栈，多打几次分析下

guyueyiren

Jun 11, 2021

@x1596357 好的，万分感谢，我试试

guyueyiren

Jun 11, 2021

@fengjianxinghun 好的，万分感谢，我试试

guyueyiren

Jun 11, 2021

@wangxkww 好的，万分感谢，我试试

julyclyde

Jun 11, 2021

这种情况一般是在线程里

zhoudaiyu

Jun 11, 2021

strace -fp $PID，这样可以看线程。或者用 perf trace $PID 也可以捕获到线程的 syscall 。

guyueyiren

Jun 11, 2021

@julyclyde
@zhoudaiyu 感谢两位，问题已经找到了

guyueyiren

Jun 11, 2021

多谢各位大佬，问题已经找到了，是程序员大大很久之前写了个 bug，因为入场门槛较高一直没测出来，现在一触发就导致了死循环，已经解决了，还是 v 站大佬多啊

julyclyde

Jun 11, 2021

@guyueyiren 恭喜啊
赶紧把检查过程、思路记录下来，回头邀功请赏的时候会用到

hronro

Jun 11, 2021 via iPhone

只有我一个人比较好奇，这种问题不应该是程序员自己 Debug 吗，为什么是运维来 Debug ？

matrix67

Jun 11, 2021

@hronro 应该不是不会，是扯皮了

no1xsyzy

Jun 11, 2021

@hronro 楼主不一定是运维，也可能是测试（

guyueyiren

Jun 11, 2021

回答上面三位的问题：
我们是个小公司，就那么几个人，我是运维，理论上啥都会（开发，网络，运维），但是不精通，哈哈。
没扯皮，大家关系都比较好，早先我怀疑是死循环的时候，程序员大大就粗略的看了看，说没问题，后面大家一起查出来了，领导也没说啥，让下次注意点。
因为工期比较赶，估计程序员大大写完后没有自己 debug 一遍，也不能说是后端的锅。
另外提一嘴，我们有一个运营，拉过来当测试了，哈哈，甩锅到他头上说没测试出来

julyclyde

Jun 15, 2021

@hronro 程序员一般会嘴硬说 works for me