V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Curiosity777
V2EX  ›  Java

小白请教服务性能与故障问题

  •  
  •   Curiosity777 · 60 天前 · 1187 次点击
    这是一个创建于 60 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    目前公司业务都使用 docker 部署,全部加起来 20 来个服务

    资源

    1. cpu64 核
    2. 内存 256g
    3. 硬盘几十个 T

    问题

    数据库服务 tdengine ,使用 rest 连接,近期这个服务一直挂,其他服务都没问题,之前 32 核 128g 的时候就挂,扩容到 64c256g 也挂,进容器里面看连接数,大概有 3000 来个

    请教一下,这种问题怎么排查,目前看物理机 cpu 负载 40%左右,业务最高峰是下午四点,很疑惑

    1. 64c256g 支持不了 3000 个连接同时读数据吗
    2. 如何定位到底是 cpu ,网络、还是内存的问题
    6 条回复    2024-09-12 14:30:03 +08:00
    seers
        1
    seers  
       60 天前 via iPhone
    上普罗米修斯监控啊
    piero66
        2
    piero66  
       60 天前 via Android
    描述太模糊,不会就贴 log
    Int100
        3
    Int100  
       60 天前
    tracing ,logging 和 monitoring 总要提供一个,大伙才好判断呀
    xuanbg
        4
    xuanbg  
       59 天前
    同样 20 来个服务,我的资源是 8 核 16G ,硬盘空间更是只有可怜的 40G 。服务器目前平均 qps 约 20 ,峰值也有 100+,cpu 大约 4%,内存在 10G 上下。

    唯一和 OP 不同的是,我的数据库是独立的,服务是容器化的。所以,建议 OP 把数据库分出去或者装 docker 里面看一下。另外,硬盘几十个 T 是不是为了存储上传的文件?大文件上传没写对方法非常吃内存,值得重点关注。
    Curiosity777
        5
    Curiosity777  
    OP
       59 天前
    @xuanbg 第一次崩以为是内存和 cpu 问题,cpu 负载 80 以上,内存 100g 空余 20g ,后来扩容后,还蹦,没有大文件,3000 个链接,平均每个链接读 1000 条数据这样,数据就是基础的时序数据
    Curiosity777
        6
    Curiosity777  
    OP
       59 天前
    @xuanbg 主要是不理解,从系统资源看,没有达到瓶颈,仅 3000 连接服务就挂了,平均每个连接 1m 内存也是够的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1004 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 19:10 · PVG 03:10 · LAX 11:10 · JFK 14:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.