生产环境的服务器,连通知都没有 半夜就重启了。 服务器上一大堆脚本全部停了,出现过好几次服务器半夜被擅自重启,阿里云太坑,,求推荐靠谱的云主机
1
cst4you 2016-03-23 12:41:51 +08:00
Qingcloud uptime 300 天的路过, 之前因为升级 debian 到 8 重启了.
|
2
kozora 2016-03-23 13:10:31 +08:00
额 建议弄个进程守护或者把需要启动的写进开机启动里
|
3
em70 2016-03-23 13:13:43 +08:00 via iPhone
不会设置开机自启动你早说啊
|
4
kevinzhow 2016-03-23 13:14:35 +08:00
青云或者国内 AWS
|
5
zjxubinbin 2016-03-23 13:18:05 +08:00
@em70 我不设置成开机自启动他就可以不通知就重启服务器?
|
6
Andy1999 2016-03-23 13:19:12 +08:00 via iPhone
13:20:00 up 1141 days, 15:56, 1 user, load average: 7.16, 7.14, 7.13
|
7
yghack 2016-03-23 13:20:43 +08:00
阿里云之前一直用的不错
由此故障我的数据库的主从的写入集群的网络断了 6 个小时才修复 呵呵哒 |
9
virusdefender 2016-03-23 13:21:11 +08:00
一般是物理机挂了,虚拟机迁移导致的。我也遇到过。
|
11
yexm0 2016-03-23 13:22:34 +08:00
搬去外国
|
12
ayang23 2016-03-23 13:25:20 +08:00
13:26:54 up 516 days, 14:49, 1 user, load average: 0.11, 0.10, 0.12
阿里云除了速度慢别的还不错 |
13
lxy 2016-03-23 13:36:15 +08:00
https://help.aliyun.com/knowledge_detail/5973775.html
云服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机,当检测到云服务器所在的物理机机发生故障,系统会启动保护性迁移,将您的服务器迁移到性能正常的宿主机上 ,一旦发生宕机迁移,您的服务器就会被重启,如果您希望您的服务器重启以后应用服务器自动恢复,需要您把应用程序设置成开机自动启动,如果应用服务连接的数据库,需要在程序中设置成自动重连机制。 |
14
vwhenx 2016-03-23 13:40:54 +08:00
我目前大约 30 台左右阿里云,遇到过 2 次宕机迁移的情况,其实这个很难避免的。
你应该让你的脚本开机自动启动。 |
15
nicevar 2016-03-23 13:43:38 +08:00
没有发短信提示?
|
16
QK8wAUi0yXBY1pT7 2016-03-23 13:44:17 +08:00
这些云服务器没有办法保存状态进行平移吗?
就像 vmware 的暂停恢复那样 |
17
odirus 2016-03-23 13:45:10 +08:00
我们最多的时候二十多台,用得很欢乐,有些已经开机很久很久了。
不开机自启的服务不是好服务,不用负载均衡的网站不是好网站。 |
18
aheadlead 2016-03-23 13:47:43 +08:00
我唯一的一台 azure 也重启过…
|
20
GhostFlying 2016-03-23 13:55:57 +08:00
我倒是碰到过 Linode 物理机故障重启的,阿里目前还没碰到过。。
|
22
shaoS 2016-03-23 14:05:58 +08:00
23:07:55 up 1569 days, 2:01, 1 user, load average: 0.26, 0.11, 0.09
|
23
huage 2016-03-23 14:09:55 +08:00
物理机出现问题然后,迁移重启应该是会有的。
我也同样造成,不能开机自启动的服务或者软件都不是好服务或者软件。 |
25
dongyado OP @em70 并不是会不会设置开机启动的问题,几行代码的而已,而是阿里云的方法太坑了。。生产服务器不打招呼直接重启,,
|
27
lhbc 2016-03-23 14:24:05 +08:00
|
28
em70 2016-03-23 14:24:36 +08:00
@dongyado 哪个云服务敢保证永远不自重启,既然这种情况不可避免,无论几率大小,就算你换了一个号称永远不自重启的云,一样要设置自启动先堵死这个漏洞
|
29
blues9 2016-03-23 14:26:31 +08:00
我的机器也是,去年到现在已经被无故重启过 3 次了,开始还和阿里的人吵架,每次都是赔个代金券了事,后来也麻木了。。同样跑在 aws 的备份系统就 3 年没有重启,直到不久前被通知需要升级 instance ,那也是提前好几个月打招呼了。阿里云的水平还有挺长的路要走。
|
30
dongyado OP @vwhenx 看来遇到这个问题的人很多,开机启动是次要的,这次启动的只是脚本服务器,下次说不定直接重启 web 服务器了,,,这用户的体验就蛋疼了
|
34
LioMore 2016-03-23 14:56:23 +08:00
试试美团云?
|
35
3dwelcome 2016-03-23 14:57:51 +08:00
"做好监控,在物理机出现可能的故障时热迁移并检查硬件,能极大降低冷迁移的发生"+1
必要的时候,还是要另外开一台服务器作为监控的,间隔一段时间连接一下服务,随时给自己的手机发短信通知。 |
36
usedname 2016-03-23 14:58:42 +08:00 via Android
3 楼也是搞笑, linode do 重启都要提前几天发邮件通知的好吗
|
37
ipconfiger 2016-03-23 15:02:51 +08:00
物理机故障导致切换计算节点, 这个云计算很难避免的
|
38
Zzzzzzzzz 2016-03-23 15:06:46 +08:00
要保障可靠性容灾、监控、异地冗余都是必须做的, 靠服务商保证基本是不可能的, 别说给 VPS host 打 0day patch 或者机器硬件问题会发生突然性挂掉, 即使是用独立服务器, 机房上架新机器时候蹭掉周围机器的网线或者电源都是不少见的.
@usedname 很多情况是不可预料的, aws 和 linode 最不缺无预警的机房级故障, linode 历史上光 fremont 机房突然断电整个机房挂半天就不是一次两次了. |
39
coolzjy 2016-03-23 15:21:29 +08:00 1
我是来看三楼搞笑的
|
40
yangxiongguo 2016-03-23 15:25:12 +08:00
|
41
AntonChen 2016-03-23 15:32:44 +08:00
|
42
iwannaflytomoon 2016-03-23 15:39:36 +08:00
top - 15:40:52 up 156 days, 1:29, 4 users, load average: 0.31, 0.13, 0.09
我这边 10 多台阿里云的机器,没遇见过擅自重启的情况,可能是小概率事件吧 |
48
9hills 2016-03-23 16:27:24 +08:00
底层物理机损坏,除非你做了虚拟机热备,否则无论如何都是会导致冷迁移的
|
49
aheadlead 2016-03-23 16:32:58 +08:00
LZ 留意下系统日志 看有没有 kernel panic 类似的东西...
|
50
lygmqkl 2016-03-23 18:36:17 +08:00
top - 18:36:55 up 125 days, 7:28, 1 user, load average: 0.00, 0.00, 0.00
|
51
fds 2016-03-23 18:42:19 +08:00
配置启动脚本呗,另外避免单点故障
|
52
mornlight 2016-03-23 19:02:28 +08:00
物理机宕机导致的迁移应该是有短信提醒的,你问问客服。
|
53
jimzhong 2016-03-23 19:15:09 +08:00
难道 Aliyun 还不支持热迁移吗,我一向都不写自启动脚本的。
|
54
russj 2016-03-23 19:24:41 +08:00
没有开机启动?没有自动重启?
青云的 ubuntu deploy meteor app 不行。 update upgrade 后也不行,大陆香港的都不行。懒得去给他们 debug 了 |
55
huijiewei 2016-03-23 20:00:30 +08:00
买了阿里云服务器,一台还没开始用硬盘就挂了。。汗。。正在等处理,我晕
|
56
akira 2016-03-23 20:12:22 +08:00
不可预知的重启是没有办法提前通知的。。但是如果事后他没通知你的话,就去骂吧
|
57
gpw1987 2016-03-23 20:40:22 +08:00
我觉得如果你的集团大了。还是考虑自己弄吧,依靠在云上面毕竟很多东西还受制于技术或者邻居和阿里在这方面的投入,不过阿里搞这个可能刚刚开始关系吧。
|
58
unixbeta 2016-03-23 20:54:40 +08:00 via iPhone
700 万 pv 没有监控,运维咋做的
|
59
msg7086 2016-03-23 21:00:41 +08:00
|
60
alexapollo 2016-03-23 21:15:54 +08:00
估计是进了超卖池
|
61
Aspx 2016-03-23 21:26:36 +08:00
我是来看 3 楼搞笑的
|
62
Showfom 2016-03-23 21:28:56 +08:00 via iPhone
可能你所在母鸡硬件坏了 所以只能重启咯 不过不通知确实不好 Linode 的母鸡也整天硬件坏 但是都会通知
|
63
special 2016-03-23 22:10:53 +08:00
服务关联太多,自启动也未必解决到问题...
|
64
aliyunservice 2016-03-23 22:15:57 +08:00
您好,方便的话可以微博私信阿里云客户满意中心提供下您的服务器信息我们查询下具体情况,如果是宕机迁移导致的重启我们会有短信和邮件通知您的,同时建议您的程序或者软件设置开机启动的机制保证应用正常运行。
|
67
dongyado OP @unixbeta 没出现过大问题,阿里云的监控以前基本够用,现在发现有必要自己做了, 运维我都是挤出时间做的,最近在测 zabbix 这一周可以上线
|
68
yishenggudou 2016-03-23 23:15:06 +08:00
你确定不是你欠费了
|
69
goodryb 2016-03-24 09:50:22 +08:00
如果重启 1 台机器都能对业务造成影响,那只能说运维有问题。物理机还有宕机掉电,别说虚拟机了
|
70
jadecoder 2016-03-24 11:01:56 +08:00
要是服务商没办法保证机器稳定,能否付费前告诉用户,我们的机器会经常重启,请确保服务可以开机自启动。
退一万步讲,宕机重启也应该发邮件通知用户吧。 反正我用我司的云主机从来没有被重启过 |
71
aliyunservice 2016-03-24 11:37:28 +08:00
@huijiewei 您好,您的这边问题解决了吗,如果还有问题可以通过微博通过微博联系阿里云客户满意中心,私信提供下您的服务器信息我们核实下。
|
72
aliyunservice 2016-03-24 11:38:04 +08:00
@huijiewei 您好,您的这边问题解决了吗,如果还有问题可以通过微博通过微博私信提供下您的服务器信息我们核实下。
|
73
huijiewei 2016-03-24 11:40:55 +08:00
@aliyunservice 你好,已经解决了。
|
75
chousb 2016-03-24 18:27:30 +08:00
楼主可以试试青云 QingCloud 最起码迁移会通知你。
|
76
coko156 2016-03-25 02:49:53 +08:00
mysql 查询慢到天?
|