联系方式:
- wechat:asd653583
个人信息:
- xxx/男 /1995
- 惠州学院 /本科 /2018 届
- 求职意向:大数据开发(偏向流处理开发)
- 工作经验:2 年(半年实习后转正)
工作经历
- 2018.1-至今:xxx 大数据开发
自我评价
- 热爱技术,善于总结思考,勤写博客,每月保持 3-4 篇博客输出,信奉输出倒逼输入。
- 动手能力强,对技术有浓厚的兴趣,曾动手实现一个简易的 mapreduce 框架,实现 raft 共识算法等( MIT6.824 )。
- 面向 google 编程,思维活跃,喜欢钻研底层,学习过 jdk,spark 部分组件源码。
- 逻辑清晰,沟通能力强,个人博客(博客园,附地址):http://www.cnblogs.com/listenfwind/
工作经历
xxx 数据管理平台
项目描述:xxx 数据管理平台主要用于统一管理公司内部 TB 级用户数据,用以支撑业务所需的数据采集,数据清洗,数据提取等。
我的职责:1.设计并实施用户标签存储方案,使用 hive 和 hbase 作为存储工具,Spark SQL 作为数据处理工具,优化提高了 Spark 读取 Hbase 的性能,输出并维护相关文档。
2.数据采集:使用 maxwell 采集 mysql binlog,并发送到 kafka,使用 kafka connect 作为接收端存储到 hdfs 中。
3.数据管理后台开发,使用 spring boot,开发基于 ilvy 的 spark 自动化处理模块,元数据管理模块及数据可视化模块的开发。
4.数据处理及挖掘,使用 spark sql,spark ml 库等负责日常数据提取和挖掘需求。
高可靠的网络实时监控系统
项目描述:个人项目,基于 kdd99 数据集,使用 spark ml 库 svm 算法进行训练,将模型保存。使用 kafka + Spark streaming 实时接收数据,加载模型并对网络数据识别,然后存储到 mysql。使用 echarts 实时获取数据并展示。
所用技术:随机发送 kdd99 流量数据模拟实时场景,使用 kafka 的幂等的 producer 发送数据,实现 exactly once 数据传输。使用 spark Streaming+kafka 获取数据,其中使用 hbase 对 kafka 的 offset 数据进行外部持久化,避免当 spark streaming 出现故障的时候 offset 丢失的情况。
技能展示
程序设计语言:熟悉 scala,java,python,熟悉函数式编程。
大数据生态:熟悉 hadoop hdfs,hive,hbase 等大数据存储组件及其设计原理,熟悉 spark 各组件及其原理,熟悉 kafka 等消息中间件及其原理。
web 后端开发:熟悉 Java 后端开发,Mysql 数据库,能使用 spring,spring boot 等框架进行 web 开发。
机器学习:熟悉常见机器学习算法及其内部原理,以及 sklearn,spark ml 等框架。