V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ykswang
V2EX  ›  Amazon Web Services

AWS 因为闰秒大面积宕机

  •  1
     
  •   ykswang · 2015-07-01 10:22:16 +08:00 · 10870 次点击
    这是一个创建于 3431 天前的主题,其中的信息可能已经有所发展或是发生改变。
    Twitter上已经各种酸爽了

    47 条回复    2016-03-06 00:13:22 +08:00
    longestusername
        1
    longestusername  
       2015-07-01 10:40:30 +08:00
    闰秒引起宕机的原因是?
    est
        2
    est  
       2015-07-01 10:42:13 +08:00
    @longestusername 代码里 getSecond() 返回一个60 。。。
    crayygy
        3
    crayygy  
       2015-07-01 10:57:29 +08:00
    @est 为什么听起来那么喜感。。
    cnZary
        4
    cnZary  
       2015-07-01 10:59:37 +08:00 via Android
    aws不是不打算添加第60秒而是把这1秒分散嘛
    @est
    renfufei
        5
    renfufei  
       2015-07-01 11:12:03 +08:00
    只有时间服务器修改下不就好了吗?把1秒拆成2秒。
    MuskWang
        6
    MuskWang  
       2015-07-01 11:16:38 +08:00
    闰秒:怪我咯......
    blessme
        7
    blessme  
       2015-07-01 11:33:27 +08:00
    这么脆?
    gamexg
        8
    gamexg  
       2015-07-01 11:40:54 +08:00
    一直不清楚这种事情到底有什么影响?
    程序上需要做那些特殊处理?
    learnshare
        9
    learnshare  
       2015-07-01 11:42:47 +08:00
    又不是第一次闰秒,为什么这么脆弱...

    不知道有没有人经历过 千年虫,从 9* 到 00 的 Bug 更严重
    benjiam
        10
    benjiam  
       2015-07-01 11:51:14 +08:00 via iPad
    jdk有问题 会cpu100%
    hging
        11
    hging  
       2015-07-01 11:54:33 +08:00
    不是因为这个. 是因为ntp服务- - 内核的原因.
    caixiexin
        12
    caixiexin  
       2015-07-01 11:58:55 +08:00
    有点疑惑,除了需要重新同步下时间外,闰秒对计算机的影响到底是啥。。
    youxiachai
        13
    youxiachai  
       2015-07-01 12:05:45 +08:00
    wy315700
        14
    wy315700  
       2015-07-01 12:10:33 +08:00   ❤️ 1
    @caixiexin
    @gamexg

    很多关于事务性的东西会崩溃,2012年纽交所就崩溃了。
    事务要求计算机的时间是一直往前走的,而闰秒会把时间回拨一秒。。
    MuskWang
        15
    MuskWang  
       2015-07-01 12:37:30 +08:00   ❤️ 1
    @gamexg
    @learnshare

    这篇文章有比较好的说明
    http://www.tuicool.com/articles/JnYbaua
    loading
        16
    loading  
       2015-07-01 12:40:41 +08:00 via Android
    unix 时间遇到闰秒,会出现两个一样的。

    然后就傻逼了…
    wdlth
        17
    wdlth  
       2015-07-01 12:55:56 +08:00   ❤️ 1
    为何上交所和深交所不崩溃?快崩了拯救股民。
    kamushin
        18
    kamushin  
       2015-07-01 13:01:03 +08:00
    @wdlth 我国将在北京时间2015年7月1日的7时59分59秒和全球同步进行闰秒调整
    股市还没开
    invite
        19
    invite  
       2015-07-01 13:36:30 +08:00
    为什么?
    wdlth
        20
    wdlth  
       2015-07-01 13:38:37 +08:00
    @kamushin 时间不同步,如果在第一秒就发生交易,那么到底是算开盘前还是开盘后呢。很多交易所都调整时间提前或者延后交易时间来避免争议。
    zhengkai
        21
    zhengkai  
       2015-07-01 16:00:24 +08:00
    昨天刚看到同事发了个 http://toutiao.com/a4600340448/ ,今天就……
    lilydjwg
        22
    lilydjwg  
       2015-07-01 16:26:48 +08:00
    tt88050643
        23
    tt88050643  
       2015-07-01 16:40:55 +08:00   ❤️ 1
    我们公司(一交易所)采取的方法是在6月30号晚停止ntp服务,7月1号8点以后,手动ntpdate立即校时,保证开盘前完成闰秒调整,而从今天的记录来看,ntp服务器不会出现07:59:60而是在08:00:00时间点停留两秒。在之前的模拟闰秒的测试中看,主机在接收到闰秒通知后是会重复跑两遍07:59:59。
    em70
        24
    em70  
       2015-07-01 16:53:05 +08:00 via Android
    @learnshare 千年虫是当时业界集体忽悠外行的,没那么严重,但搞得全世界都如临大敌,很多软件公司都大大的赚了一笔
    ykswang
        25
    ykswang  
    OP
       2015-07-01 17:09:36 +08:00
    @lilydjwg 我们在AWS的集群网络不通,CPU100%,都是从7:59:59后开始的
    duangaduang
        26
    duangaduang  
       2015-07-01 17:27:52 +08:00   ❤️ 1
    我们自己的服务器N多负载飙高,影响不小,主要还是我们用的内核版本比较低,哎!
    duangaduang
        27
    duangaduang  
       2015-07-01 17:28:33 +08:00
    @tt88050643 你们很专业啊!
    lilydjwg
        28
    lilydjwg  
       2015-07-01 17:33:29 +08:00
    @ykswang 那给点链接去围观嘛。截图又不能点又不能复制文本。
    tt88050643
        29
    tt88050643  
       2015-07-01 17:49:06 +08:00
    @duangaduang 交易系统对时间进行切片打上时间戳,对时间还是挺敏感的。
    kamushin
        30
    kamushin  
       2015-07-01 18:16:44 +08:00
    @wdlth 8点-9点,怎么可能还没同步好:(
    easehu
        31
    easehu  
       2015-07-01 20:47:50 +08:00
    我们公司从今年1月份就开始出通告了,我们在3月份完成所有设备的调查,最后找供应商确认这些设备是否会因为闰秒问题出现问题,最后到4月中旬得到结果,只有两台过保的光纤交换机可能会有问题,其他的机器系统内核都升级到了新版本,网络设备和存储设备都询问过供应商,确定到时没有这个问题。最终给两台光纤交换机搞了个私有的ntp服务器(ntp配置无法去掉,过保没技术支持),在私有ntp上用perl 模拟ntp服务器。早上平稳过度没出现设备宕机和网络中断的情况。
    micyng
        32
    micyng  
       2015-07-01 21:13:16 +08:00
    @est 不会出现60,而只是59重复一次
    princeofwales
        33
    princeofwales  
       2015-07-01 21:35:31 +08:00
    半个月前就做好了预案,今早提前到了公司,临时停止了几台数据库服务器的ntp,8点过后再打开,没有发现异常
    我看了一些资料,是说会出现07:59:60,一般的应用当然没问题,timestamp类型的字段就可能有问题了,数据库不认第60秒
    rrfeng
        34
    rrfeng  
       2015-07-01 21:48:53 +08:00
    不是闰过好几回了吗……第一次就是停了 NTP 然后第二天起
    反正我们的业务时间相关性不是很大。
    alen
        35
    alen  
       2015-07-01 21:50:18 +08:00
    AWS机器没啥特殊变化,就和平时一样没啥事发生。
    julyclyde
        36
    julyclyde  
       2015-07-01 22:03:50 +08:00
    @easehu 如果交换机连不上ntp会如何?直接让它访问不了不就得了,为什么还做个假的?
    julyclyde
        37
    julyclyde  
       2015-07-01 22:04:32 +08:00
    @princeofwales 数据库字段应该可以吧?就怕事务处理受逆转时刻影响
    wy315700
        38
    wy315700  
       2015-07-01 22:05:06 +08:00
    @julyclyde 那样 交换机时间会永远比其他设备快一秒。。。
    julyclyde
        39
    julyclyde  
       2015-07-01 22:10:04 +08:00
    @wy315700 闰秒之后再让它能连上就可以慢慢调过来吧。你的假ntpd提供啥数据给它?
    wy315700
        40
    wy315700  
       2015-07-01 22:21:21 +08:00
    @julyclyde
    估计是内核原因,不支持平滑过度1s这么大的差距,也许可以过度10ms这样的,所以要弄一系列假的NTP数据,诱导他慢慢的过度过来。

    仅个人猜测
    ivanchou
        41
    ivanchou  
       2015-07-01 23:10:37 +08:00 via Android
    家里的网件路由器昨晚正常,今天老爸打电话说不能上网了,会不会是闰秒造成的?
    YvesX
        42
    YvesX  
       2015-07-02 00:05:33 +08:00 via iPhone
    AWS 因为闰土大面积宕机
    crystone
        43
    crystone  
       2015-07-02 00:14:19 +08:00
    刚发现我的一个vps自己重启了 是这个原因么
    yanyandenuonuo
        44
    yanyandenuonuo  
       2015-07-02 06:52:03 +08:00
    @em70 应该没这么简单吧,99变00对很多软件还是有影响的吧,比如不是盛传WIN9跳票就是为了避免一些软件对WIN95的判断==
    julyclyde
        45
    julyclyde  
       2015-07-02 20:53:43 +08:00
    @wy315700 那看来交换机内是用ntpdate而不是ntpd
    liuyangmengqi
        46
    liuyangmengqi  
       2016-03-06 00:07:49 +08:00 via Android
    @em70 当年千年虫事件真的非常,非常严重。你所谓的"忽悠、没那么严重、大赚一笔"的阴谋论,我来给你打个比方:一群气象专家拼命宣传洪水要来了,政府决定大力加固年久失修的堤坝,修好后洪水真来了,幸好堤坝坚固,只漏了一点水,淹了几间草房。结果几个市民开始嘀咕:“这洪水也不怎么厉害嘛,电视报纸上整天吓唬我们,花了那么多钱,肯定有阴谋。”
    应该说,之所以最后没有造成太过严重的后果,正是因为对千年虫危害宣传和防治做的非常彻底,
    liuyangmengqi
        47
    liuyangmengqi  
       2016-03-06 00:13:22 +08:00 via Android
    @em70 其实就是两句话:
    出现了千年虫问题,"专家"没说话,业界不重视,完全没有做应对措施,最后造成严重后果☞阴谋论:"垃圾,这点事都摆不平,背后肯定有阴谋。"
    出现了千年虫问题,"专家"一起告危,业界非常重视,积极做应对措施,把损害降到了最低☞阴谋论:"其实没多大事,真能忽悠,背后肯定有阴谋。"

    总之无论什么都是阴毛
    呵呵,你开心就好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1162 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:05 · PVG 07:05 · LAX 15:05 · JFK 18:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.