项目名称:动力环境监控系统
项目描述:这套系统建设的主要目的是在于为机房的正常运行提供有利的保障,在出现问题的时候能够及时有效发现,并且能够快速定点定位的发现故障,系统能自动处理或者是提醒机房维护人员进行处理。机房动力环境监控系统提供多样化的报警组、报警方式。可以通过实时数据告警数据和历史曲线直观分析系统运行情况。系统内嵌套强大报表系统。
技术栈:Go,MongoDB,Mysql,influxDB,gRPC,Docker,k8s
设计技术:
1 .使用协程处理大数据量的监控数据|对采集数据进行处理,每秒数量高达数万,并根据阈值判断是否发生了告警.使用协程将数据分别存到对应的平台.Mysql 存储告警信息,MongoDB 存储实时数据,influxDB 存储历史数据
2 .监控项表数据将近 300 万,导致相关查询慢,先试下合适的索引,能用覆盖索引的尽量用覆盖索引,几种组合 效果不太好。 通过冗余字段,只查一个表,避免联查,减少数据量。 如果数据量还是大, 可以考虑按某种东西分表了.从 10 秒降到 1s 内.
3 .使用协程将数据迁移,将失败的数据重新放到通道中,并比对最终数量,保证数据完整性
4 .容器内存过高,导致容器重启.用 pprof 分析 goroutine 数量,原来是 MongoDB 服务器写入问题,cpu 占用率高,io 高.导致上游内存增加,容器服务重启。->批量写入,单点换集群.
5 . influxDB 写入出错,开发者解释 io 问题,无法解决.更换 ssd 并将数据按大楼分别存到不同的库中.
责任描述:
1. 动环项目清洗平台优化及维护
2 .动环项目告警事件及历史告警事件,实时数据查询
3 .动环项目嵌入式管理,包含嵌入式信息,设备信息.监控项实时数据
4 .嵌入式项目数据展示及设备导入导出,柴发启停控制.
5 .北向接口.控制第三方用户接口,可以看到的设备,监控项,实时数据和告警数据
项目名称:云平台
项目描述:以部署升级、监控报警、错误排查及恢复、定制等日常运维和交付的工作为主线 提升运维和交付效率。云平台提供统一可公用的组件,进一步防止重复造轮子,已经过推敲、验证过的方案来统一各产品、项目技术团队,例如统一租户、统一认证、统一基础设施等。用于应用全局规范和约束。云平台所提供的系统功能将为上层能力及规范提供基础支撑,进一步大打通、串联研发团队、测试团队、交付和运维团队的工作成果。
技术栈:Go,MongoDB,Docker,k8s
设计技术:
1. 用平台标准封装程序,将应用程序转化为平台应用,进而对接平台管理功能,方便部署和排查问题
2. 应用组,组合不同产品之间的应用,提高部署到客户现场的效率
3. 应用导入导出功能,导出不限于平台数据,还包含 Helm 、Yaml 、Docker-compose 格式数据,以满足不同环境之前的快速部署
4. 配置中心支持 key-value 、文本、上传文件等数据格式。并包含配置回滚、展示发布历史数据功能
5. 使用 caddy 插件实现 Api Gateway
6. 使用 traefik 灰度发布功能
7. 为降低维护成本,将各个团队独有集群,按开发流程统一为不同的资源池
8. 周期性的分析集群资源的状态并提供优化建议
责任描述:
1. 协助公司各产品 /技术团队,对接云平台,给出修改意见和解决方案。
2. 收集各团队使用反馈,优化云平台功能
3. 维护公司内和项目上集群,正常使用