@
ounxnpz AWS SRE 工程师 20-35K 16 薪:
岗位亮点
构建 AlOps 智能运维体系,探索 LLM 在运维领域的应用
-管理大规模 AWS 云基础设施,掌握前沿云原生技术
推动 SRE 文化落地,打造高可用的金融级系统
核心技能要求
3 年以上 SRE/DevOps 经验,熟悉大规模系统运维
深度掌握 AWS 服务(EC2 、ECS 、EKS 、RDS 、CloudWatch 等)
精通 Kubernetes 生产环境管理和故障排查
熟练使用 GitOps(ArgoCD 、Flux)和 laC(Terraform 、CDK
掌握 Prometheus+Grafana 监控体系建设
工作职责
设计高可用、高性能的 AWS 云架构,保障系统 99.95%SLAA
构建 AlOps 平台(智能告警、根因分析、自动修复)
推进 GitOps 落地,实现声明式基础设施管理
建立完善的监控告警体系(指标、日志、链路追踪)
应急响应和故障复盘,持续优化系统稳定性
成本优化和容量规划
加分项
有 AWS 认证(SolutionsArchitect/DevOpsEngineer)
熟悉 ServiceMesh(Istio)和 Serverless 架构
了解 eBPF 、Cilium 等云原生网络技术
有大规模 K8s 集群管理经验(500+nodes)
能使用 LLM 辅助编写 laC 代码和运维脚本