V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
xshwy
V2EX  ›  全球工单系统

近期腾讯云每天宕机近一小时,硬盘读流量 109718.682KB/s, iops 2072.501 个…

  •  
  •   xshwy · 2020-03-24 10:40:16 +08:00 · 2379 次点击
    这是一个创建于 1706 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近有用户反馈网站不可用,登录后台是发现硬盘读流量暴增到十几万 kb 每秒,可以 ping 的通但是 ssh 无法链接网站无法访问,最终我重启后可以正常使用,之后提交工单客服说已经解决?实际并没有

    奇妙的是服务器不可用期间腾讯云并没有任何形式的通知(站内信 短信 微信等),之后我添加了阿里云的站点监控,这几天基本上每天都会有几十分钟的宕机时间,必须重启服务器才能恢复正常。

    上次联系客服问了一下赔偿问题,腾讯云官方说可使用率为 99.95%也就是每个月有 21 分钟的不可用时间,但是光昨晚就有 25 分钟的不可用时间……

    今天早上又出现问题了,持续了十几分钟,我重启后恢复正常,刚刚提交了工单,看他们怎么说…

    服务器配置:香港二区 4 核 8GB 5Mbps 系统盘:高性能云硬盘 标准型 S2 centos7

    P1 最近 24 小时硬盘读流量峰值

    P2.服务器实时监控

    P3. 上次提交的工单信息

    第 1 条附言  ·  2020-03-24 12:15:21 +08:00
    收到来自 腾讯云技术 的工单电话,初步确认了一下应该不是腾讯云的锅,上次工单回复说是宿主机的问题是不严谨的,怀疑可能还是我业务方面代码的问题,稍后授权技术人员帮忙做一下测试以及安装 atop 做一下日记记录,晚一些再看看问题吧
    第 2 条附言  ·  2020-03-24 16:32:21 +08:00

    破案了,锅是我的,辛苦技术帮忙调查了,是因为触发oom了,我某个python脚本的问题,没有做好pid判断以及异常处理,导致corntab一直调起python进程,最多时候系统内有300多个python3进程,将内存资源耗尽并导致其它进程被kill……

    触发oom时间点附近会伴随着磁盘读流量的增大,目前的怀疑是,系统在oom的发现前会把一些文件的page cache清理掉,这样下次io操作如果读到这些文件就需要从磁盘来读了,这会导致磁盘读流量在短时间内突增。

    第 3 条附言  ·  2020-03-24 16:33:18 +08:00

    不是腾讯云的锅,确实是我的问题,这次也要反思一下,以后遇到问题还是自己再好好看看日志做做调查才行;同时感谢楼层里帮忙出主意的各位。

    asilin
        1
    asilin  
       2020-03-24 11:02:07 +08:00
    磁盘 IO 被打满了而已
    xshwy
        2
    xshwy  
    OP
       2020-03-24 11:07:52 +08:00
    @asilin 是宿主机被攻击了嘛?
    mnssbe
        3
    mnssbe  
       2020-03-24 11:26:54 +08:00
    自己查不了原因么
    airyland
        4
    airyland  
       2020-03-24 11:44:50 +08:00
    看描述并不能确定是哪方面的问题,但是据我经验这种问题更多的是业务上导致的问题。
    你应该看看网站的访问日志确认是否外部流量异常。
    xshwy
        5
    xshwy  
    OP
       2020-03-24 12:14:17 +08:00
    @mnssbe 上次提交工单的时候,技术人员回复说是宿主机的问题,所以我就没自己去排查,以为是宿主机的原因


    @airyland 网站流量有涨,不过整体是平稳的没有拉高峰这样的情况;之前工单说是宿主机的问题 我以为是腾讯云的锅,刚刚技术给我打电话解释了一下,可能确实还是我业务导致的问题,已经在做进一步的调试了
    opengps
        6
    opengps  
       2020-03-24 12:40:36 +08:00
    重启后可以正常使用,这个表现高概率是你系统内部应用有问题。至于是操作系统的应用,还是你自己部署的应用,需要你进一步分析,云厂商不允许触碰客户数据的。
    你可以尝试下找懂技术的腾讯云工单支持,提供帐号密码授权协助试试看,阿里云那边曾经这样帮助过我(前几年)。腾讯云这边应该也会有这类特事特办的流程
    stiekel
        7
    stiekel  
       2020-03-24 15:03:58 +08:00
    如果重启可以解决,那可以停掉一些业务用的服务试一下。
    xshwy
        8
    xshwy  
    OP
       2020-03-24 15:52:13 +08:00
    @opengps 腾讯云可以的 刚刚技术帮我排查过了 确实是我的业务问题,有个 python 死了没写退出,也没有做 pid 限制,导致 corntab 不停的调用脚本导致内存溢出了…


    @stiekel 确实是我业务问题 是我的锅,之前工单说是宿主机的问题,我以为是腾讯云的锅,原来是我的锅…
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2639 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:26 · PVG 12:26 · LAX 20:26 · JFK 23:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.