V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kisshere
V2EX  ›  程序员

什么时候服务器硬盘就应该更换了?

  •  
  •   kisshere · 2022-08-11 09:56:33 +08:00 · 2542 次点击
    这是一个创建于 836 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前服务器 HDD 硬盘用了几年了,运行也正常,正在犹豫要不要更换硬盘,有什么检测步骤 or 必要的检测指标确定是否该更换硬盘了?
    15 条回复    2022-08-11 20:13:15 +08:00
    e9pWeUbh9PGCnp95
        1
    e9pWeUbh9PGCnp95  
       2022-08-11 09:57:04 +08:00
    保修期过了就要换.
    rekulas
        2
    rekulas  
       2022-08-11 10:06:49 +08:00
    除非你运气好,有些硬盘坏之前会出现 smart 异常,但并不是每个坏盘都会出现

    这个没办法预测,生产商自己都做不到,结合资金实力决定多久更换,根据 blackblaze 的实测数据,硬盘使用超过 2-3 年后故障率骤升
    willamtang
        3
    willamtang  
       2022-08-11 10:34:30 +08:00
    看保修,能续保就用着。
    一个机器准备三块硬盘,两块 raid1 一块 spare ,这样一般能撑到新的硬盘到。
    melsp
        4
    melsp  
       2022-08-11 10:37:44 +08:00 via Android
    快过保了就
    murmur
        5
    murmur  
       2022-08-11 10:50:35 +08:00
    这不是定期维保的内容么,这个东西最怕的是几个硬盘集体挂壁,你以为一个硬盘报警,实际上几个硬盘都奄奄一息,你换硬盘重建 raid ,大量读盘,剩下的盘也挂了
    westoy
        6
    westoy  
       2022-08-11 10:51:41 +08:00
    大厂周期报废, 小厂用到报废
    mhycy
        7
    mhycy  
       2022-08-11 10:53:23 +08:00
    过一遍完整 SMART ,看业务重要程度以及盘的 RAID 形式,综合判断是否需要执行定期换盘策略
    Miy4mori
        8
    Miy4mori  
       2022-08-11 11:02:52 +08:00
    testcaoy7
        9
    testcaoy7  
       2022-08-11 11:04:17 +08:00
    我赞同过保就换
    哪怕有 RAID 重建也是挺麻烦的
    lujiaosama
        10
    lujiaosama  
       2022-08-11 11:08:27 +08:00
    数据中心淘汰硬盘也不是用坏了再淘汰的.
    billlee
        11
    billlee  
       2022-08-11 13:23:21 +08:00
    我这边用坏的几块硬盘,都是没有 SMART 告警直接 URE 的,并且 URE 后 SMART 仍然报告正常。不过我这边数据都是 3 副本的,所以等到硬盘故障再换也没问题。
    julyclyde
        12
    julyclyde  
       2022-08-11 16:01:15 +08:00
    @billlee 嗯,有 URE 但是 health OK 就很奇怪。我也遇到过
    yulgang
        13
    yulgang  
       2022-08-11 16:35:02 +08:00
    出保就要考虑更换了,故障率会明显增加
    bthulu
        14
    bthulu  
       2022-08-11 17:16:51 +08:00
    你没用过 zookeeper 这种吗? 都是至少 3 副本, 有能力的, 5 副本起上不封顶. 这样你即便坏了 1 块硬盘, 还有至少两块能用
    my3157
        15
    my3157  
       2022-08-11 20:13:15 +08:00 via Android
    1. 做好副本,不要有单点,2. 做好备份,关键时候能救命,3. 做好监控,SMART 信息 /RAID 卡 /kernel log 和 IO 都要监控

    在前东家干活这货,把 RAID 卡,SMART 信息打入 Prometheus ,85% 情况下能准确预警,不用手忙脚乱半夜爬起来处理
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1245 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 17:35 · PVG 01:35 · LAX 09:35 · JFK 12:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.