需要对监控体系有概念的通用型人才,也需要对很多专业领域的同学,有兴趣的看 JD 哈 社招岗位支持校招和实习哈,欢迎 21 届的同学投递哈,各种问题都可邮箱咨询。 邮箱: [email protected]
https://mp.weixin.qq.com/s/HI-q3GqI_f2XlZeYgDn54A
字节跳动校招内推码: FPAPC9U 投递链接: https://job.toutiao.com/s/JR61huK
职位描述 团队介绍:AIOPS 智能监控团队负责字节跳动全网监控生态建设,包括智能报警和智能监控产品,涉及海量 PB 级数据生命周期管理,由此推动线上稳定性保障、故障诊断、容量管理和服务治理等能力构建。1 、打造一站式链路诊断、指标监控、(智能)报警、诊断工作流和自助修复平台; 2 、负责推动业务指标和调用链路的打点规范落地; 3 、提升排障效能和自动化效率。 职位要求 1 、熟悉常用 Linux 命令,熟练掌握 Java/Golang/Python 任意一种语言,Golang 优先; 2 、对于监控生态系统有二次开发及使用经验; 3 、熟悉 MySQL 或任一种关系型数据库,具有一定 SQL 书写功底和优化经验; 4 、工作认真踏实,有较强的学习能力和解决问题能力; 5 、产品意识强,善于贴近用户,提炼用户痛点,打造产品体验闭环。 具备以下条件者优先: 1 、有全栈工具开发经验优先; 2 、有公司私有云 PaaS 平台的研发及优化经验优先; 3 、有针对复杂业务系统架构的实施经验优先。
1 、负责 ElasticSearch 平台,提供稳定的存储服务和快速高效的查询; 2 、负责搜索与分析引擎的研发与架构升级,例如提升优化系统性能、存储计算隔离等等; 3 、理解业务方的背景和需求,推动最佳工程实践的落地。 职位要求 1 、精通 java,熟悉 JVM,有相关调优经验; 2 、具备扎实的计算机基础和优秀的编码能力,深刻理解面向对象、设计原则、封装抽象; 3 、擅长 ELK 、Lucene 、Solr 等,有大规模运维&定制化&调优经验者优先; 4 、了解分布式系统的基本原理,有大型分布式系统的开发、应用和优化经验; 5 、优秀的学习能力和较强的自我驱动意识、良好的团队合作精神。
职位描述 1 、参与大规模分布式时序数据库( TSDB )落盘存储系统设计和开发,保障系统在极高并发访问的场景下稳定、低延迟、高可用、易伸缩; 2 、深入理解业务场景的存储需求,实现对象存储平台化 & 多租户化; 职位要求 1 、 熟悉 C++/Go 等语言,熟悉网络编程,多线程编程; 2 、了解分布式存储系统的实现原理; 3 、优秀的编码能力,针对业务场景设计和实现 in-house 系统;对工程质量有很高的自我要求; 4 、参与过 TSDB 时序数据库( OpenTSDB,Influxdb,M3, Prometheus, Karios ) 社区开发、调优优先考虑; 5 、熟悉 SQL & SQL optimizer /coprocessor 优先考虑; 6 、有过大型自研分布式存储系统经验者优先考虑。
职位描述 1 、负责云平台前端研发工作( PC 端、Node.js ); 2 、参与云平台相关产品的研发工作,如 DevOps 平台、监控平台、运维平台等; 3 、能积极参与云平台业务讨论,协同各个端开发公共 sdk 输出到其他业务线( js 、node )。 职位要求 1 、计算机、通信和电子信息科学等相关专业优先; 2 、熟练掌握各种前端技术,包括 HTML/CSS/JavaScript/Node.js 等; 3 、深入了解 JavaScript 语言,使用过 React 或 Vue.js 等主流开发框架; 4 、熟悉 Node.js ,了解 Express/KOA 等框架,有大型服务端程序开发经验者优先; 5 、对用户体验、交互操作及用户需求分析等有一定了解,有产品或界面设计经验者优先; 6 、有云平台相关经验,如 CI/CD 、DevOps 、监控知识优先; 7 、有自己的技术产品、开源作品或活跃的开源社区贡献者优先。
1
hujnnn 2020-06-17 13:24:10 +08:00
日志挖掘
数据抽象建模 metircs 指标聚合整理以及去燥 指标预测 异常检测算法,从最简单的 3sigma 到孤立森林机器学习算法 异常事件关联 故障 RootCase 定位 故障恢复 报警聚合 在我有限的 AIOPS 实践中,有好多内容可以做。头条真好,有这么多场景以及海量数据,以及可以吸引到优秀的工程师加入。 |
2
cpui5 2020-06-17 21:21:03 +08:00
其他业务线最近面试挂了,还能再投吗?之前就是做监控、分布式链路追踪的
|