V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
chijince
V2EX  ›  程序员

阿里云 ECS 重启后开不了机了 怎样把数据盘的文件考出来?

  •  
  •   chijince · 2021-01-23 15:15:57 +08:00 · 4189 次点击
    这是一个创建于 1398 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ECS 重启后无法远程连接。通过 VNC 远程连接后画面一直停留在进入系统的进度条,快照已经恢复到 1 月 14 日,依然无法连接。

    怀疑是磁盘空间满了,用系统盘快照镜像创建了一个新的 ECS,新的 ECS 从之前的数据盘创建新的云盘。

    发现还是连不上。

    发送远程命令(云助手)无响应。

    请问有没有好的解决办法?

    如果恢复不了,数据盘的文件有没有办法弄出来?

    求教

    31 条回复    2021-01-25 11:27:28 +08:00
    Attan
        1
    Attan  
       2021-01-23 15:17:58 +08:00   ❤️ 1
    最好的办法是提工单 响应解决更妥当
    fredcc
        2
    fredcc  
       2021-01-23 15:29:58 +08:00 via Android   ❤️ 1
    创建一个同样系统的 ecs 实例,将原实例关机,对数据盘做快照,分离数据盘,挂到新实例上,mount 下
    yunhui
        3
    yunhui  
       2021-01-23 16:22:47 +08:00
    发帖别有瘾啊,你这点发帖等待的时间,阿里云的工单技术已经给你解决了
    polyang
        4
    polyang  
       2021-01-23 16:47:37 +08:00
    提工单
    weifan
        5
    weifan  
       2021-01-23 16:52:48 +08:00
    当然提工单啊.....有什么能比工单稳?
    62D0oo7AxBv8qn17
        6
    62D0oo7AxBv8qn17  
       2021-01-23 16:56:10 +08:00
    现在阿里云提工单都没人工回复的,都是一些所谓的不知所云的智能回复系统,想人工回答的话,出钱吧
    rfff
        7
    rfff  
       2021-01-23 17:41:27 +08:00
    @simonzhd 阿里云应该在一个小时左右了,毕竟是大公司当然不会付费提供工单服务的
    opengps
        8
    opengps  
       2021-01-23 17:56:46 +08:00
    阿里云有人工,只不过实在机器人后面,胡乱输入下,然后低下可能会出现转人工的连接
    markgor
        9
    markgor  
       2021-01-23 18:02:54 +08:00
    @rfff 阿里云付费工单极速响应,普通工单龟速响应
    Mirana
        10
    Mirana  
       2021-01-23 18:05:37 +08:00
    提工单 有专门值班技术解决
    mcone
        11
    mcone  
       2021-01-23 18:49:05 +08:00
    @simonzhd 这么惨了吗?
    我一年前买的 ECS 出了些使用中的问题(其实跟他们 wiki 更新缓慢也有关系),不属于影响使用的大问题,只属于可回复不可回复的那种,他们也有真人回复了,从提交到完全解决响应时间不到一周,我当时觉得还可以的样子,虽然 ECS 贵了些……
    UUZ
        12
    UUZ  
       2021-01-23 19:22:54 +08:00
    抖机灵
    等阿里云售后注册 V2EX
    chijince
        13
    chijince  
    OP
       2021-01-23 21:41:15 +08:00
    已经提交工单了 授权了 ECS 的权限 现在看看阿里的工程师能不能帮我解决了 哎 太闹心了
    chijince
        14
    chijince  
    OP
       2021-01-23 22:22:41 +08:00
    @fredcc 请问 mount 挂载数据盘会不会格式化数据盘?
    fredcc
        15
    fredcc  
       2021-01-24 01:53:51 +08:00 via Android
    @chijince 你这没看过一点点公有云文档么
    zx900930
        16
    zx900930  
       2021-01-24 02:14:17 +08:00
    昨天,腾讯云从云控制台更新 ssh 证书后系统崩溃,VNC 查看无限重启,grub 尝试了几个内核都无效。
    国内时间的 12 点半提交的工单,从提交工单到解决花了 5 个小时还不能催单,就是 /usr/分区直接被移走了,chroot 进去移回来就恢复了,给你参考一下。
    你要是业务很重要就得掏钱,不重要你可以慢慢等。
    当然不管用不用人工交不交钱,核心数据一定要多处备份。
    如果只用快照,备份策略得设置好,不然出事的时候要恢复发现一堆坏快照就惨了。
    zzw1998
        17
    zzw1998  
       2021-01-24 07:50:42 +08:00 via iPhone
    @simonzhd
    @opengps 只要给那个机器人连发两次“转人工”就会出现提交工单的按钮了
    40EaE5uJO3Xt1VVa
        18
    40EaE5uJO3Xt1VVa  
       2021-01-24 08:54:01 +08:00
    有在这里问的功夫,提工单呀
    ChenXuting
        19
    ChenXuting  
       2021-01-24 08:56:57 +08:00 via Android
    之前出现问题,工单解决了。
    gricn
        20
    gricn  
       2021-01-24 09:30:58 +08:00 via Android
    阿里云曾经在凌晨 2 点回复我工单,且不像是机器回复的
    jjx
        21
    jjx  
       2021-01-24 09:49:29 +08:00
    @gricn

    的确, 阿里云服务同 阿里系的完全不同


    我上次端午节, 两台老旧机器监控显示并发数异常, 直接搞到凌晨 2 点多, 后来我觉的不好意思了, 就没让他们继续搞
    dream4ever
        22
    dream4ever  
       2021-01-24 11:09:57 +08:00
    我们公司用的阿里云 ECS 和你出现过类似的问题,一台运行了四年多的 Windows Server 2012,业务需要装过各种软件,也经常安装系统更新,结果有一天 IIS 下面的网站都无法访问了,重启之后就卡在那个“疑难解答”界面,进不去系统,给阿里云提交了工单,他们的技术工程师尝试了各种办法也没解决。

    最后给系统盘创建了一个快照,用来把上面的数据库文件之类的拷出来。然后在系统盘上重新安装的系统,数据盘还都在,不放心的话也可以给数据盘做个快照,有备无患。

    尽管给阿里云提交工单就行,我们现在有相关问题都提交工单,回复都还算及时,服务挺不错的。
    CoderLife
        23
    CoderLife  
       2021-01-24 11:43:08 +08:00
    上上周遇到同样的问题:
    空间满了, 删掉文件后, Postgres 无法启动, 重启后无法 ssh, 后面提的工单, 经工单查询原因, 因为导致挂载出问题了, 经过一个小时的解决. 终于解决
    总结:

    1. 定期自动测试磁盘空间大小, 发邮件.
    2. 买单独盘, 定期备份关键数据到单独盘.
    lbyxiaolizi
        24
    lbyxiaolizi  
       2021-01-24 11:56:38 +08:00
    去机器人那边随便说两句,然后发工单让他帮你解决,可能一个下午就好(划掉
    chijince
        25
    chijince  
    OP
       2021-01-24 11:59:00 +08:00
    @fredcc 这个方法有效

    我重新安装了系统,fdisk -l 查看分区,使用 mount /dev/vdb1 /mnt 挂载成功。
    chijince
        26
    chijince  
    OP
       2021-01-24 12:09:29 +08:00
    我的数据都在 RDS 上,所以重新获得数据盘的文件即可,系统无所谓。数据和 WEB 服务器分离、系统和网站文件磁盘分离,这是有必要的。

    其实在发帖之前已经提交了工单了,就是等了好久,后来阿里云的工程师的回复是这样的:
    --------------------------------------
    您的服务器系统在启动过程中会卡住,不能正常启动完成。 在系统启动时,设置用单用户模式可以正常进入系统,单用户模式进去,检查系统里边也没有发现异常,尝试把 /etc/rc3.d/ 下边开机启动的服务都取消了,重启服务器还是会卡在,目前没能修复系统启动的问题。
    当前是单用户模式进去的,您也可以从控制台登录服务器里,检查一下系统里的启动服务情况。
    可以备份一下服务器里的数据,考虑给服务器重新初始化系统,恢复到最初正常的系统启动。
    ---------------------------------------

    我后来重新创建了一个 ECS,使用和故障机器一样的系统版本,增加一块数据盘,数据盘以此前备份的快照创建。

    启动后,fdisk -l 查看分区,使用 mount /dev/vdb1 /mnt 挂载成功。

    到这里心里基本有底,备份故障机器,重新装系统,直接用 mount /dev/vdb1 /mnt 挂载成功。
    jeriyeh
        27
    jeriyeh  
       2021-01-24 12:40:36 +08:00
    你这问题还不算太严重,我们前段时间用微软的 azure 云服务器, 硬盘空间只用了一半,一切看似都很正常,通过服务器管理面板添加网站都时候卡住了,重启了下,就整个硬盘( vhd )都没了, 启动诊断截图显示 “no boot device”,什么文件都找不到的那种,复制挂载查看就是个空盘,微软的技术支持也搞不了,只能恢复 1 天前的镜像,瞬间对云也失去了信心,因为这种问题看似硬件级别的错误,很像是以前那种启动扇区坏道的问题,但 vhd 文件就是无法修复
    QBzzz
        28
    QBzzz  
       2021-01-24 15:33:05 +08:00
    装监测应用撒,等出问题再解决麻烦得很
    matrix67
        29
    matrix67  
       2021-01-24 16:00:15 +08:00
    大佬们都不监控吗,推荐监控宝啊!!!快满了给你短信
    TophTab
        30
    TophTab  
       2021-01-24 21:17:48 +08:00 via Android
    最近几天,我的轻量服务器在我折腾之下,死机了 3 次,两次都是 reboot 后连不上了,停止后再开机有几机率能用。
    chijince
        31
    chijince  
    OP
       2021-01-25 11:27:28 +08:00
    @TophTab 重装系统吧 一直折腾不划算啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2775 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 00:19 · PVG 08:19 · LAX 16:19 · JFK 19:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.