前段时间代码中有个问题,找了非常久才找到,最后发现是因为服务器在阿里云,而阿里云到 Datadog 的网络不通。于是我们不得不放弃了 DataDog,用 Grafana 搭起来一套监控系统
搜资料的时候发现,Grafana 中文的优秀教程非常少,不是已经过时就是 CSDN 上复制粘贴的各种奇怪文章。于是我们在搭起来监控系统的过程中,特意将过程抽象记录了下来,结合之前在厂里的经验写了这篇教程,并附上了代码
这篇文章里,我会从原理出发,讲到为什么要用 Grafana,再到 Grafana 的启动和配置。系统监控不只是运维赖以生存的工具,它对日常开发也有非常大的作用。这也是为什么之前在厂里,虽然是工程师也推荐阅读 Google SRE 手册(同样强烈推荐)
能熟练地使用 Grafana/Prometheus 等系统,对于开发来说绝对是走到哪都好用的技能,希望这篇文章能够帮到大家。如果对你有帮助欢迎留言告诉我
本文对应的: GitHub Repo
1
defunct9 2020-08-13 07:37:58 +08:00 via iPhone
讲讲如何收集交换机带宽并计算 95th 吧
|
2
KalaSearch OP @defunct9 好的,不过这篇已经非常长了。如果你有好的文章推荐也请发给我,我会加到后面
|
3
chotow 2020-08-13 08:22:58 +08:00
楼主要不要再写一下 Logstash 和 Kibana,ELK 也是挺常用的。
|
4
iplcbest 2020-08-13 08:23:08 +08:00 via Android
配置挺复杂,感谢分享
|
5
opengps 2020-08-13 08:24:19 +08:00
文章特别好,Grafana 对于大厂来说简直不可或缺
|
6
v2byy 2020-08-13 08:33:54 +08:00 via iPhone
通俗易懂,赞
|
7
wenbinwu 2020-08-13 08:43:36 +08:00
把不同种类的 metrics 都解释清楚就更好了
|
8
RedBeanIce 2020-08-13 09:30:07 +08:00
强无敌
|
9
KalaSearch OP |
10
hhyvs111 2020-08-13 10:10:47 +08:00
我们公司也用的这个,不错
|
11
linvon 2020-08-13 10:29:39 +08:00
prometheus 的话,还是在文章里改下描述吧,是 prometheus 主动向数据源拉取数据的,这也是它与 influxdb 这种数据库的主要区别,不然容易误导新手
|
12
KalaSearch OP @linvon 能详细点说下哪个部分让你觉得表意不是这样吗?
|
13
summer0 2020-08-13 11:01:33 +08:00
@KalaSearch 同问 讲讲如何收集 90,95th 的
|
14
fenglangjuxu 2020-08-13 11:05:10 +08:00
应该讲下怎么画图 画各种各样的图形
|
15
lzlee 2020-08-13 14:21:03 +08:00 2
兄弟你这是要当 教程王 啊
粗略看了一下, 感觉把简单事情讲得很清楚 楼主费心了 |
16
nowcoder 2020-08-13 14:52:29 +08:00
请教一下楼主,时间序列的数据里,如果中途有一段时间是没数据的,展示的折线图如何在这段时间内显示为 0 ?
现在是直接一条折线过去的,希望两个数据点的时差超过 k 秒,就显示为空 |
18
linvon 2020-08-13 15:28:09 +08:00
|
19
seanxx 2020-08-13 16:05:24 +08:00
是不错,我们一直在用
|
20
weilongs 2020-08-13 16:38:17 +08:00
去年公司让做了 Grafana 的汉化。 过后来版本代码变化有点大,不能复用其他版本。
|
23
agdhole 2020-08-13 21:33:35 +08:00
楼主的卡拉搜索怎么收费的,有免费额度吗?
|
24
ETiV 2020-08-13 22:53:05 +08:00
|
25
KalaSearch OP @linvon 感谢,编辑的时候没读到,的确不太严谨,一会改一下
|
26
clifftts 2020-08-14 09:20:13 +08:00
先收藏
|
27
leestar54 2020-08-14 09:46:10 +08:00
隐约感觉是广告贴,但是又没有证据的样子[狗头]。
|
28
csdreamdong 2020-08-14 09:58:36 +08:00
同问,,带宽 95 计费的问题
|
29
ixinshang 2020-08-14 13:27:22 +08:00
@csdreamdong 表示关注
|
30
ixinshang 2020-08-14 13:31:02 +08:00
请教 1 个问题
@csdreamdong @KalaSearch 我是配合 zabbix 使用的,通过 SNMP 获取的值,原始数据是间隔 5 分钟,在使用 grafana 查看值的时候,两天之内,数据间隔是 5 分钟的。 超过 2 天,时间间隔就大于 5 分钟,查了相关的资料,没查到能设置的地方,两位能否赐教一下。 |
31
WilsonGGG 2020-08-14 15:39:54 +08:00
这个网站设计的蛮好看的,手撸还是模板?
|
32
StrongNoodles 2020-08-14 16:19:47 +08:00
先收藏,有空再看。。
|
33
Leigg 2020-08-14 22:51:26 +08:00 via Android
可以先把 es 教程出完吗
|
34
KalaSearch OP |
35
tianshiyeben 2020-08-21 13:46:42 +08:00
我也贴下我的监控系统,哈哈,www.wgstart.com
|
36
zoyua 2020-08-24 10:18:10 +08:00
学习了,多谢
|
38
chaleaoch 2020-09-14 10:09:32 +08:00
thanks!
|
39
winglight2016 2020-09-14 16:31:02 +08:00
我刚开始以为 grafana 是面向数据分析的 dashboard,直到开始定制第一个图表才发现,数据集必须使用指定的数据结构,这实在太死板了,仅仅适合于实时 log 数据。
|
40
berserk 2020-09-16 09:17:25 +08:00
赞,分享!
|
41
hullhutt 2020-09-16 10:34:52 +08:00
真的是第一个 dashboard,太浅显了,有没有更深一步的
讲讲 grafana 使用过程中的问题和不足,以及适用的地方 具体的仪表盘的使用,调整,期待后面 |