先说一下环境:容器集群版本 Openshift Container Platform 3.11 ,Kubelet 1.12 ,docker 1.13.1 。每台 node 约运行 60 个 pod (约 120 个 docker 容器),运行一段时间后(几天到几个月不确定),通过 docker exec 进到容器执行命令,就得在执行前等 10 秒以上才能进去,执行命令很快,退出时,还得等 10 秒才能退出,就像卡住了一样,ctrl-c 也停不下来。exec 命令执行期间,docker 没有任何异常日志。现在已经通过 nsenter 进到进程命名空间( nsenter )和通过 docker API 直接和 dockerd 通信(均正常)排除了一部分干扰因素。唯一解决方法就是重启 dockerd ,别无他法。求大家给个排查的思路(或者解决方案),谢谢!
