灵活调配 ELK ,适应大数据场景
在开篇之前,先简单的列举下我们线上 ELK 的真实数据。目前自建的 ELK 集群主要接入了自建 CDN 的日志,以及多个应用业务系统。
T 级带宽 CDN 日志的导入 高峰索引速率 150K/S+ 高峰每日量级 80 亿条 /天+ 高峰每日存储量 2T+
传统的日志是分散到各台机器上,无法实现日志实时分析,且故障时只能进行事后追查。极为不便。基于上面问题,需要将散落在各业务机上的日志收集汇总起来,进行集中存储,实时分析以及实时告警。我们在调研了目前主流的多种日志解决方案后,基于下面原因选择了 ELK 作为业务收集分析平台。
提供采集,存储,分析,展示的整套解决方案,且开源 性能高效,可进行平行扩展 开包即用,上手较为容易,且二次开发成本较低 丰富的结构化查询语法,提供 restful api 可以方便的对接业务系统
线上的 CDN 系统以及多套业务系统已经接入了 ELK 集群,其中 CDN 业务系统的日志量级较大。而 ELK 集群主要为 CDN 系统下面的两个子系统提供服务。
CDN 节点产生的各种日志后,经采集系统汇总到 ELK 集群中, CDN 的多种子系统就可以通过 ELK 丰富的 API 来进行数据分析和处理。
2.1 CDN 质量监控子系统 CDN 的质量监控,在对 CDN 节点进行正常的监控外,也同时对 CDN 日志进行汇总,分析,处理,挖掘出各种性能指标,并且基于这些指标针对 CDN 系统进行监控并且持续不断的优化。而这些性能参数的挖掘和分析都是基于 ELK 集群。 我们 CDN 质量监控系统采用横向和纵向的纬度,对 CDN 系统的运营状态进行分析监控。横向的典型纬度包括:项目,区域, ISP ,省份,机房,集群,频道,节点等。
纵向的典型纬度包括:响应状态码,命中率,平均下载速度,平均响应时间,文件类型分布等。且质量监控子系统支持数据下钻功能,下钻到最底层到具体日志时,可以直接使用 API 从 ELK 中获取数据。
2.2 CDN 用户自助子系统
ELK 为 CDN 用户自助平台提供了面向用户的统计分析模块的数据支撑,同时也提供频道的原始日志下载。
其中统计分析模块中的带宽统计,访客统计, URL 分析,来源分析,目录分析,回源分析等数据都是从 ELK 中提取数据进行分析展示。而原始日志则是经过 ELK 集群的 gzip 模块压缩输出产生。
详细介绍可以点击以下链接 http://dwz.cn/4sOI5Y