我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。
于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。
日本国内质保 3 年,免费换新。
售后挺好的。但是噩梦来了。
去年 9 月购入,然后装机,上机架,系统设置,一气呵成。
15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。
然后做了 1 个月测试,没发现问题。
然后将业务数据移动到新服务器上。
正常开始跑业务。
也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。
接下来 11 月开始卡了。
各种卡,表现为 smbd 或者 flush 进程 100%。
硬盘 io 全为 0.
甚至 dmesg 都出现内核恐慌了。
分析了下就是写入硬盘,然后没了。
等待 30-300s 随机时间,硬盘写入恢复。
怀疑写入遇到坏块了。
smartctl 测试走起。
好家伙,16 块盘,有 6 块报坏块。
不得不说,日本经销商态度可以。
马上 [私密马赛,私密马赛,私密马赛]
我们给你换。
换货邮费还是经销商全包。
甚至提供先发货,我再退货的服务。
换货之后
陆续小卡,恢复时间很短,基本上 10s 内。
而且 SMART 也不报错,smartctl -t long 测试也能无错通过。
我就放置了。
24 年 1 月 12 日,
又开始了,超级大卡。
这次恢复时间居然超出了 600s ,
所有含写入的进程都在内核恐慌。
dmesg 拉了 300 多行.
关键是这个一卡,公司业务全部要暂停,
硬盘写入读取完全无响应。
同事翘脚抱怨,我就只能打哈哈调试。
之后从 12 日开始到今天 18 日,
每天都有十来次卡顿,
30s-120s 才能恢复。
关键是 SMART 不报错。
日嘛,头都大了。
你要是报错,我就把你提出来找经销商换新啊。
你啥错误都不报,smartctl test 还能正常无错通过。
但是就是卡,简直要了我的狗命。
老板问,为啥服务器又卡了。
我,硬盘可能又坏块,要坏了。
老板,那找厂家换吧。
我,硬盘没报错,暂时还不能保修换新。
老板,你 TM 拿我开心啊,给我去解决这个问题。
我,打工人乖乖退下。
mb 东芝硬盘,
现在虽然偶尔卡顿,但是每天业务还在进行。
我又不能现在卸载硬盘来跑个完整的写入测试。
求问各路大佬有没有什么办法。
任何方法都可以尝试。
真心求问。
1
aaniao002 320 天前 via Android
感觉像买到 smr 了,用硬盘产品型号那一串查一下,如果是 smr 直接全换了吧。写入量一高各种卡。
|
2
lesismal 320 天前 1
有故障现象就拿去售后,人家没说你用户自己检测不报错就不能售后吧?
|
3
wuyadaxian OP @aaniao002 CMR ,确认过了。买的时候和商家确认了,官网也确认了,第一次保修换新的时候也确认了,就是 CMR 。但是感觉比 SMR 还垃圾
|
4
wuyadaxian OP |
5
wuyadaxian OP @lesismal 返厂检查至少 2 周起,检查这两周不给备用盘,RAID10 抽走一半,我怕是要 GG
|
6
gamexg 320 天前 2
数据重要不?
重要赶紧买新硬盘替换掉. 另外是不是其它硬件存在问题? 6/16 的故障几率是不是也太离谱了? 电源之类有问题造成硬盘损坏? 要不临时买少量几个其他品牌的盘替换掉目前的盘,然后把替换下来的返厂看看厂家怎么说? |
7
bihui 320 天前
MN08ACA16T/jp 。 我好像买的也是这个
|
8
xausky 320 天前
感觉不至于呀,我这国内买的矿渣东芝盘都还挺好的
|
9
GooMS 320 天前 via Android
检查下硬件把
|
10
Pichai 320 天前
我咋看新闻东芝都要把存储业务卖掉了!
|
11
Donahue 320 天前
我觉得主要的硬盘厂商 东芝 西数 希捷就这三家吧,问题应该不是东芝,可能受到电源等外部因素影响的,我去年闲鱼买的东芝 14TB 矿渣都没什么问题
|
12
northbrunv 320 天前 via Android
企业级还得是希捷靠谱啊
|
13
shijingshijing 320 天前
东芝的盘是三家里面最稳定的了,建议先还是查看一下电源吧
|
14
datou 320 天前
大盘只能买企业盘
TOSHIBA 的企业级是 MG 系列吧 MN 是什么鬼。。。。 |
15
MoeWang 320 天前 via iPhone
要不要做做电源纹波测试先
|
16
dasenlin 320 天前
看样子是硬盘背锅了,按概率讲,就算是数据中心的使用频率和量,一年左右同时坏 6 块,这个概率是极低的。再说第二次换新后还是无缘由的无响应,你要考虑下服务器硬件或者软件设置上的问题了。
这个样子你再次换新硬盘,还是解决不了问题。 可以先把硬盘替换到新硬件平台排除一下原来平台的问题。 |
17
anyinuo0413 320 天前 1
俩月多 50%的故障率,感觉不是硬盘的问题,检查下机房环境/电源?
再差的盘 故障率也不可能这么高啊… |
18
msg7086 320 天前
@datou MN 是家用级 NAS 盘。
@wuyadaxian 按理说 NAS 系列是不太适合那么多盘放在一个机箱里跑的。企业级才适合这种环境。 比如 Ironwolf 系列只 rate 到 8 块硬盘在一个机箱里跑。 |
19
hGaHLRyC 320 天前
16 块盘那么短时间同时 6 块出现坏块,是不是检查下硬盘外的问题啊,比如主板,震动和供电?这比率太高了把?
|
20
datou 320 天前 1
|
21
leonme 320 天前 via iPhone
@northbrunv 其实都半斤八两,这玩意儿又没啥技术含量,拼的就是价格和售后
|
22
wuyadaxian OP |
23
wuyadaxian OP @MoeWang 这个没测过,想了解下
|
24
wuyadaxian OP @hGaHLRyC
是的。一开始是这么想的。 考虑过 RAID 卡,前板,电源等问题。 RAID 卡是两块,前板也是多块,供电至少电力没问题。 温度适度震动应该都没问题。毕竟机房不是他一台机器。 另外还考虑过 linux 软件内核等问题。 最后测试下来,至少硬盘概率最大。 当然我不能说绝对,至少上面 v 友提到的电源纹波没做过。 |
25
wuyadaxian OP @datou 下次认准了。大容量硬盘真是坑多。
|
26
wuyadaxian OP @dasenlin 估计要启用老服务器,然后进行测试了。但是老服务器是 windows 家庭版。samba 限制 20 人接入。(没听错,windows 家庭版,不是我负责的,前人的智慧
|
27
wuyadaxian OP @msg7086 学到了。有一说一,现在老服务器还有 3TB * 12 的希捷普通盘在 4U 机箱里面跑,听说已经服役了 5 年了,虽然已经挂了 2 块盘,但是稳定性比这个新的还好。
|
28
kkk9 320 天前
啥牌子啥型号的阵列卡,曾经遇到过一些很魔幻的,除了某一个品牌的盘,其他牌子的都各种出问题😅
|
29
lizhengbo 320 天前
@wuyadaxian
Windows 还是稳定, 操作简单, 重新迁移到 Windows Server 就好了. 而且 WinServer 的域权限可以和其他很多文件服务联动, 客户端加不加域都行. WinServer 的文件服务还提供很多强大便携的功能, 权限管理又直观. 例如每创建一个用户, 自动在共享目录下生成该用户的共享目录. 开源的坑太多. |
30
lesismal 320 天前
公司里用,RAID 也不稳,还是多搞一组、一个常用另一个定期备份下好些
看样子我买的几块二手企业级还是很划算的。。 |
31
wuyadaxian OP @kkk9 lsi 9211-8i 芯片,IT mode ,直通 linux ,mdadm 软 raid
|
32
testonly 320 天前
我觉得你这个问题吧,反正你都不可能再用东芝的了,也肯定要换硬盘的了,那你就去买几个同级别的其他牌子硬盘试试好了。
如果其他牌子的没问题,就全换那个牌子。 如果有,就是你们使用上的问题了,要么硬件问题,要么是这个层次的硬盘达不到你们工作强度的需求? 但你如果直接全部上更高级别的硬盘,那不一定有答案,可能有,可能没,反正自己决定了。 |
33
wuyadaxian OP @lizhengbo 日本公司,winserver 可是需要大价钱购买的。可不是随便就敢用的,查到就罚几千万。不然为什么前人要用 windows 家庭版做 samba 共享服务,因为 windows 家庭版随机附送,约等于免费。
|
34
6a82aa9bfe 320 天前 via Android
硬盘最好不要同个厂商同个批次的,这样就算坏了也不至于同时坏
|
35
wuyadaxian OP @testonly 是的,所以我在想启用老服务器,先把资料转移回去,持续业务的情况下重新测试新服务器。等测试结果再决定。
|
36
wuyadaxian OP @6a82aa9bfe 那批就是同厂,同批次,至少我觉得被坑了。
|
37
mokiki 320 天前
了解一下 TrueNAS 吧,不仅共享权限设置简单,而且还有邮件报警功能。得益于 OpenZFS 提供的 RAIDZ ,使阵列恢复的用时更少。
你还在等什么,赶快打开你的浏览器下载吧: https://www.truenas.com/truenas-scale/ |
38
yyzh 320 天前 via Android
?你们没备份的么?像我们公司都是用 Barracuda 做本地备份然后每天下班后上传 Barracuda 云做远程备份的,就算服务器硬盘全挂都能很快恢复.
|
39
jdqingm 320 天前
会不会是网络冲突什么的
|
40
xcodeghost 320 天前
我们服务器几乎都是东芝的企业级硬盘,感觉质量还可以啊,好像从来都没出现过问题
|
42
wuyadaxian OP @xcodeghost 下次换企业级吧,家庭级别感觉不行。
|
43
wuyadaxian OP @jdqingm 不会,因为服务器还有系统盘。所以网络和其他服务是正常的。另外卡的时候,在服务器本地操作,挂载的硬盘也无响应。
|
44
wuyadaxian OP @yyzh 备份不能替代业务盘,业务卡的时候又不能拖出备份盘来用。
除非做数据集群动态负载均衡。但是小公司没必要吧。 |
45
msg7086 319 天前
@wuyadaxian #27 希捷普通盘?难道是 barracuda……?
|
46
ZRS 319 天前
Toshiba 只推荐买 MG 系列
|
47
ltkun 319 天前 via Android
op raid10 竟然用软 raid 不用 zfs zfs 明显更加灵活性能也应该更好 失误哦 民用东芝是不行的 刚刚我用了五年的东芝被替换了 smart 已经报错 80 多次了
|
48
telaviv 319 天前
买大硬盘推荐先读这个:
https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data 自己的 NAS 用了东芝 MG 的氮气盘,比较安静,还算满意。 |
49
1KTN90lKW9gVJ9vX 319 天前 via Android
我用东芝 n300 ,16t ,感觉还不错。
|
50
piku 319 天前 via Android
正常啊,东芝的机械盘故障率一直是很高的(依据:某数据中心公开的统计报告
东芝固态(铠侠)其实还行的,但是性价比不高 |
51
litguy 319 天前 3
感觉不像硬盘问题
硬盘不会这么大规模故障 重点检查硬盘供电,数据线和 RAID 卡 怀疑这些不稳定导致硬盘故障的 16 年企业级存储研发路过 |
52
litguy 319 天前
把硬盘型号,机器配置,RAID 这些相信信息报告一下吧
|
53
Actrace 319 天前
为啥不考虑 SSD ?
|
54
liuhaibin 319 天前
10 年前买过 2 次东芝,没到就是坏的。从此不敢买
|
55
gbw1992 319 天前
这种坏盘几率
我咋也感觉不像是硬盘的问题的 类似供电不稳定导致的 |
56
Xenotaros 319 天前
大容量只推荐企业级硬盘
|
58
ReZer0 319 天前
这个坏盘率的确有些离谱了,除非他们发出来的这个批次的盘大部分都不合格,不然一下子这么多块真的得考虑下电源问题。
|
59
itsjoke 319 天前 1
最近一年应该买了上千块 MG 系列,坏盘率低于 ST 和 WD 。真的是稳,不过有一段时间老是坏盘,最后经过反复测试发现是机箱开了全速风扇导致的,供 OP 参考!
|
60
andydebug 319 天前
人家都退市了,你说渣不渣
|
61
liuzimin 319 天前 via Android
只有我在好奇你是怎么找的赴日工作的吗?
|
62
villivateur 319 天前
我觉得可能是你电源或者机柜温度、震动之类的导致的,不然故障率不可能这么离谱
|
63
yukiww233 319 天前 1
|
64
Torpedo 319 天前
概率上来说,同品牌换货还不行概率比较低。也有可能是别的问题引起的
|
66
laminux29 319 天前
哥们没经验啊...其实买之前应该去论坛或 NAS 群问问的。
世界上质量最好的硬盘是日立,没有之一。质量好到把自己的厂子给整垮了,现在买不到了。 最垃圾的是哪个牌子,我不知道,但东芝,是我遇到过,唯一的一款,京东自营全新,用了半年就坏道了的。 企业级的做法是,希捷企业盘与西数企业盘,间隔着用,而且异物理机+异硬件+异 OS 共 3 副本。 |
67
sorsens 319 天前
@wuyadaxian #3 你自己测一下硬盘的读写性能,官方写的 cmr 也可能是 smr 的性能。
测完硬盘性能,就排除一个 |
68
janpun 319 天前
上大学的时候买东芝笔记本,前两个月连续坏了两次,都是因为内置的东芝硬盘
|
69
zundamon 319 天前
看 backblaze 硬盘报告,企业盘的话东芝 MG08 、西数 UltraStar 故障率都不高,希捷有几款高的要避雷。MN 应该是民用降级款,但是这个故障率还是有点高,检查下是否是电源的问题吧
|
70
geniussoft 319 天前 via iPhone
除了硬盘的问题之外,系统的选择也是大问题。
这种应该直接选择群晖。 我知道 smartctl 人工也能看,但是谁能坚持每天检查呢?忙起来可能直到崩了才想起检查。 以及设置每月 Smart 完全检测,以及 Raid Scrub 。 另外,硬盘目前还是 HGST 牛逼。 |
71
zundamon 319 天前
@geniussoft HGST 已经变 WDC 咯,认准 ultrastar 就行了
|
74
zzboat0422 319 天前
最近五年管理过一万块以上大容量 HDD ,只有东芝盘让我们遇到了大坑。现在招投标的要求中已经明确禁止用东芝盘了。
|
75
dog82 319 天前
跟电源有关系,供电不足硬盘很容易坏
|
76
lizhengbo 319 天前
@mokiki
小公司, 个人直接上 WinServer 是最强方案, 没有之一. 更别提还有 Hyper-V 强力支援. 大公司其实折腾这种开源或者社区版方案其实算土方法, 不深入研究出问题很难把控, 深入又投入成本太大, 对个人发展其实没啥帮助, 存粹浪费生命. |
77
lizhengbo 319 天前
@mokiki
文件共享, 权限管理等基本需求完全没必要整其他, 就 WinServer 就好了. 除了历史查看, 修改这个需求, 我想不到有比 WinServer 更稳定, 更省心的操作. WinServer 还可以部署在线 Office 预览, 编辑, 兼容性和稳定性不是秒杀 99+的在线办公. |
78
kkk9 319 天前
@wuyadaxian #31 9211 刷了 IT 固件,IOPS 上限也只有 18 万左右。考虑换个卡,你也许有新的发现
|
79
wuyadaxian OP 基本确认了问题原因,详情看新帖
https://v2ex.com/t/1010610 |