1
yyzh 107 天前 via Android
啥处理器?鲲鹏?
|
2
cooltechbs 107 天前 via Android
TPS 下降幅度多大?这个压测看起来不是压的 CPU ,那是不是它的负载分散在所有 CPU 核心上,然后一个单线程被占用的时候,相应核心执行压测任务变慢,导致总体的 TPS 下降?
|
3
fallshuang 107 天前
可能是 L3 cache 导致的问题, 建议咨询下 原厂的技术支持,问他们如何 profile L3 cache
|
4
fallshuang 107 天前
一个 单路多核 服务器, 如果其中一个核心执行 cpu 密集型运算,会影响到其他核心, 我的第一反应就是 L3 cache 或者相关的通讯 有问题。L3 cache 要做好,的确不容易。
|
6
L0L OP @cooltechbs 压测本身是分散所有压力的;物理机上层是虚拟;虚拟上层又是容器化的集群;跟踪慢的场景情况,随时都有可能,并不在特定的位置,场景本身是 IO 密集型的(多次交互数据库),但数据库响应稳如老狗;这个 cpu 计算任务,是怀疑 cpu 问题后加上的,结果下降异常严重。
|
7
L0L OP @fallshuang 本身是 java boy ,确实不知道如何排查了(没有任何权限接触到服务器上了,只有容器内的权限),大佬有办法能从这种权限的基础上,进行更进一步的定位吗?
|
8
choury 107 天前 via Android
我印象里 920 是没有超线程的,所以看下 kubelet 有没有开 cpumanager, pod 是否是 Guaranteed 的
|
9
zizon 107 天前
印象中虚拟化需要有 IO 等外部操作/中断的时候才比较好的产生切换.
纯 CPU 计算似乎没有什么切换的时机. |
11
L0L OP @zizon 这个确实不太明确,也可能是物理机直接搭建容器化集群;但这个有一个矛盾点,就是实际目前整个物理机的压力负载还比较均匀,没有超用多少 cpu ,测试的时间,机器完全没有其他用途,单纯承载测试压力的机器,不应该产生很频繁的线程切换才对。
|
12
fallshuang 106 天前
@L0L 其实,华为应该感谢你们做小白鼠帮忙测试鲲鹏。 你直接找华为的技术支持吧,这个是他们份内的工作
|
13
fallshuang 106 天前
@L0L 什么 java boy 啊, 你一辈子只能肏一个女人吗? 那为啥一辈子都是 java boy 呢?
|
14
L0L OP |
15
GeekGao 105 天前
是不是遇到了 CPU Throttling
在 Kubernetes 中,当一个 Pod 的 CPU 使用率超过其请求的 CPU 资源时,Kubernetes 会对其进行限制,以确保其他 Pod 也能获得足够的 CPU 资源。 即使你的整体 CPU 使用率不高,但当 CPU 密集型任务启动时,很可能会导致 Spring Cloud 服务的 CPU 被限流,影响其性能。 执行看一下:kubectl top 、kubectl describe pod <pod-name> |