昨天晚上,我们的 CTO 黄慧攀在云头条做了一个关于 UPYUN CDN 全网监控技术的主题分享,其中着重介绍了 UPYUN 自行开发的“狗眼”监控系统(不要太在意这个名字)。这个系统,是 UPYUN CDN 实时监控的关键基础。
下面是这次分享的现场内容。
欢迎大家评论。查看更多 UPYUN 技术现场分享请关注公众号 ( upaiyun )
——————————————————————————
今天跟大家分享的经验是:监控,这个在服务中尤其重要的环节。尤其是提供 7x24 不间断的云服务
我们的云服务有三块:
CDN
云存储
云处理
每个云服务的监控侧重点都不一样, CDN 这块重点强调的是性能和可用性。 我们用到了 听云(基调)和安全宝、 DnsPod 等,外围的服务监控。
而 zabbix 则是最基础的服务器监控了,这里就不对此做更多的介绍。但重点说说,它的不足之处:
实时性差
无法方便的对业务进行监控(需要做大量对接工作)
另外一个是 Agent ,这个是我们自己写的 shell 脚本。主要是从服务器自身内部发现问题,并告警。如:本机的各个业务系统是否在正确运行,和当前服务器连接关键机房的网络质量等等。 缺点就是:如果自身网络挂了,它就无法告警了
但能根据自己的业务特点,做很多种健康检查。很灵活
数据中心有两块大业务
云存储
云处理
这两个都是非常关键的云服务。去年我们被吐槽最多的就是云存储服务了
这里我们用到了 zabbix 来负责服务器硬件资源的监控,但这个远远不够。。。上面就提到它有很多缺点,无法满足我们的需求,所以我们自己开发了狗眼系统,来做服务监控。
它可以监控到我们某项服务的:
吞吐量
平均处理耗时
最重要的是,它能做到秒级告警
所以我们数据中心,每个子业务都做了狗眼的接入,以保障整个平台的稳定性。如:某个客户上传一个图片,并要求做缩略图存储。
那么就会牵扯到几个业务系统。
API
云处理
云存储
如果上传失败,或者上传很慢,我们一般情况下是找 zabbix 看看哪台服务器压力大。
这个确实是太拙计了...
尤其是在集群服务的情况下,单台服务器根本不反映集群的服务状态
所以狗眼的监控,我们就能准确的判断到哪个子业务的负载有问题,从而影响到了整个业务流程
比如说:云处理环节出问题了,影响到整个文件上传慢。那我们就能去检查云处理这个服务集群怎么个情况,是否因为当前的处理量过大, or 网络读写等情况
而有了“狗眼”之后,我们从原来的盲人摸象,进化为有了敏锐的“嗅觉”,能快速准确的定位为问题。另外呢,我们还有实时日志分析的系统。因为有些具体的错误信息,还是需要在日志里面体现出来的。
注意日志分析系统无法做全量,我们得有所选择。一般 200 OK 正常的请求日志没必要记录和处理的,我们这个日志监控目前是排错,所以我们只处理 code > 400 的记录。
给大家分享个脑图
我们把监控分了主要的 2 种角色, 1 、第三人称; 2 、第一人称;互相配合一起来做告警。期待 100% 无死角
脑图上标黑色线的,表示是该项监控的主要用途
DNSPod 的端口存活监控,就是为做自动容灾的
它会根据历史情况,判定当前这秒的数值是否偏差,异常。并做出告警,页面上就是某个值异常了。。。我的电脑在不停的叫 ing
我们有这么多个渠道给出告警信息,运维人员会发疯的。
并且还得避免狼来了的情况发生。所以我们很有必要对告警进行必要的去重、筛选
另外有个统一的告警平台,也方便维护。对于这些监控,最有用的是历史数据,在上面可以分析出异常来
如我们针对全国机房的链路情况,就有每 10 分钟的采样
采集到的数据要加以处理,才好利用起来
再上图介绍
很清晰的看到 120 多个边缘节点连接我们中转节点的网络速度,其中 4 个是有质量问题的
还能看到历史 48 小时的情况
有些机房,在晚高峰的时候会有机房总出口拥堵而导致性能下降。我们需要历史记录来做出判断
这个就更细致的,是根据节点的服务日志记录分析出来的。平均下载速度、下载速度大于 10mbps 的比例,和回源慢而影响的比例,等等
中间的柱状图还多个颜色混合 0.0 太复杂,就不跟大家解释了。毕竟这是我们家自己做的链路监控系统,外面米有的。
哦对了,在附加一个大家可能会感兴趣的 QA 吧:
Q :狗眼只是定位于自用?之后会对外 商用么? 另外,为什么取“狗眼”这个名字?
A :目前是仅自用,未来打算开源发布。主要是意在一种屌丝心态吧。。
————————————————————————————————————————————————
查看更多内容请关注 UPYUN 公众号。
[重要的另]
UPYUN 公众号及线上渠道长期征集高质量的技术专题类原创文章,如果你是一位业余的技术写手,或者仅仅是有写文章的兴趣,可以联系邮箱: [email protected] ,就具体的投稿事宜和我们沟通。
合适的文章将会在保留作者一切权益的前提下,通过我们的线上渠道进行广泛传播,回报更不会少,同样也欢迎行业观察类、产品类的高质量文章
望周知。
二维码如下,也可以通过微信公众平台和我沟通,谢谢
不好意思,第三张图中的 "DnsPod “写成了” DndPod",现加以修正。
修正图如下:
1
Flygoat 2015-08-25 17:06:35 +08:00
然而这个对于大厂很有用,小厂运维盯着就是了。
|
2
UPYUN OP |
3
zhanghb 2015-08-25 18:36:27 +08:00
云服务最主要是能做到实时监控到各个方面的服务状况, 并且出现状况后能快速响应和定位修复.
|
4
lhbc 2015-08-25 19:42:19 +08:00
我们也在做类似的工作,感谢分享,期待开源。
|
5
zixianlei 2015-08-25 21:19:18 +08:00 via Android
如果我把所有图片放在 upyun ,每天流量大约用 40g ,有没有更便宜的定价啊? 1000g 大约 290 元,求方案
|
6
dream7758521 2015-08-25 22:36:59 +08:00 via Android
就说一句监控挂了,叫做瞎了狗眼
|
7
lsylsy2 2015-08-25 22:54:39 +08:00
@zixianlei 日 40G 月 1.2T 并不能算非常大的量……我要是让你去买别家带宽计费的 CDN 楼主会不会打我……然而根据我的实际经验, 1M 带宽大概每天能跑 5G 流量(理论能跑 10G ,正常网站利用率 50%左右),价格能便宜一些。
|
8
zixianlei 2015-08-25 23:27:05 +08:00 via Android
@lsylsy2 我目前是 3m 的带宽,图片放在 upyun ,以前把一部分图片放在美国,近期转移到香港,节省了很多流量。如果使用 360 解析全缓存,图片放在国内,似乎可行。。。过段时间折腾折腾。。
|
9
lsylsy2 2015-08-25 23:49:27 +08:00
@zixianlei 如果你重视你的网站,就尽量不要吃免费的午餐(比如国内免费 CDN ),目前没有看到哪个是靠谱的。当然,又拍免费送的流量这种“免费用户除了量,其它和收费用户一视同仁”的东西还是可以的
|
10
geekzu 2015-08-27 12:32:49 +08:00
话说你们能优化下国外的 DNS 么,香港解析去美国,美国解析去国内
|
12
UPYUN OP @le0rn0
@Xuanwo @JeffreyLau @sorrycc @franklight @jkeylu @Tink 几位,对于这种不合理封号的问题,我们在着手进行改善,也一直在处理。 10 月份左右我们新的管理系统上线后,这种问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。 请发您的帐号到 [email protected] ,我们第一时间集中处理。 最后,对于这次动作,其实我们的初衷也主要是给用户更多实惠,并没有任何恶意。并且我们无论是 CDN 还是云存储和处理都依照用户诉求在不断地进行优化,我们是真心想努力给用户创造更好服务,但可能在这个努力的过程中会出现一些不足,我们也是想办法在解决,请放心。 |
13
UPYUN OP |
14
UPYUN OP @viko16
@skyfix @lazyyz 我们十月份左右新管理后台上线以后,这种不合理的帐号封禁问题会得到解决。 对于给您造成的不便请谅解,我们目前正在着手处理这类问题,请发邮件到 [email protected] ,注明您的帐号,我们下个工作日第一时间会集中处理。 |
15
UPYUN OP @cysnap
请发邮件到 [email protected] 注明您的帐号,我们会下个工作日第一时间进行处理,谢谢。 10 月份左右我们新的管理系统上线后,无故封号问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。 |
16
UPYUN OP |
17
UPYUN OP |
18
UPYUN OP |
20
UPYUN OP @Kilerd
@fork3rt @sb @young91 对于您账号被无故封禁表示抱歉,我们目前正在专人集中处理这个事情,请发邮件到 [email protected] 注明您的账号,我们会第一时间处理。 对于不合理封号这种反应比较强烈的问题,我们 10 月份左右上线的新管理系统将给予解决,会杜绝掉这个问题。我们也是一直努力在回应用户的诉求,排期可能有一些延迟,但进度很快会赶上的,望周知和谅解。 |
21
UPYUN OP |
22
UPYUN OP |
26
UPYUN OP |
27
yangpai 2015-09-02 12:26:37 +08:00
@UPYUN 这不是废话吗?是说防止某部门查你们水表,因为你们有些用户涉及违法使用吗?还是别的原因,还是就是说你们的机制就是只要不使用,管他是谁的账号都封掉?总有个解释吧 大哥
|
28
mikj 2015-09-27 12:11:17 +08:00
我只能呵呵, 一直以不合理帐号为借口, 难道有段时间没使用就是不合理, 是不是和某共匪一样,要不要证明 我就是我呀,不知道你们的客户管理部门是怎么想的,大家也算经常上网,经常注册帐号, 也没那个网站长时间不使用就封禁账户,就算是 freedns.afraid.org 长时间不登录,也会邮件提醒,忘记登录了 再次登录验证邮件就好了。不针对任何人,这是你们的产品在刚刚出来的时候,跟风申请帐号封掉, 然后再出什么联盟有弄了个专门博客帐号,有段时间又封掉,真的很奇怪。 我可以说没有做过任何违法,和违反你们的 tos 。只是说出很多用户的心声,你们做产品收费是无可厚非,如果自己不革命就会有其它产品替代来革命。
|