由于我是半路接受 es 的开发工作,对整体的技术工具方案都不是很了解.
接手半年发现自己一直在做 ETL 相关的工作.
现有的方案是 :
1.接受数据变更 MQ 消息
2.去 MySql 查询业务数据组装成 JSON
3.合并更新 MongoDB 中..
4.跑批更新到 ES 中(一个比较复杂的树形结构)
现有的问题 :
1.跑批任务经常卡死,不可靠
2.业务变动,总是需要我去开发 java 代码
我寻思 ES 这块应该有工具的,所以我去查了一下 Kettle 应该符合我的要求.
设想是跑批任务定时拉去 Mysql 拉去业务表的变动,然后通过一系列的转换流程补充成完整的业务 JSON(多张数据表组装成 JSON),在更新到 es 中(省了 MongoDB 这步)
询问了下我们公司的数仓同事,他们也在用阿里云的 DataWorks 工具.我研究了下发现这个工具只能做简单的同步数据映射,达到我设想的多张表聚合成一个 JSON 貌似要使用 EMR 引擎,我对这块特别不熟悉.完全没有头绪感觉 EMR(我理解为大数据相关的工具)学习成本太高了..
总结一下想了解的问题:
1.如果有其他方案,请不吝赐教
2.麻烦帮我权衡一下使用 Kettle 还是 DataWorks(二个都不会用,不是很想学大数据相关的技术 纯门外汉)
考虑 DataWorks 的原因是我们公司喜欢上云服务,减轻运维压力
接手半年发现自己一直在做 ETL 相关的工作.
现有的方案是 :
1.接受数据变更 MQ 消息
2.去 MySql 查询业务数据组装成 JSON
3.合并更新 MongoDB 中..
4.跑批更新到 ES 中(一个比较复杂的树形结构)
现有的问题 :
1.跑批任务经常卡死,不可靠
2.业务变动,总是需要我去开发 java 代码
我寻思 ES 这块应该有工具的,所以我去查了一下 Kettle 应该符合我的要求.
设想是跑批任务定时拉去 Mysql 拉去业务表的变动,然后通过一系列的转换流程补充成完整的业务 JSON(多张数据表组装成 JSON),在更新到 es 中(省了 MongoDB 这步)
询问了下我们公司的数仓同事,他们也在用阿里云的 DataWorks 工具.我研究了下发现这个工具只能做简单的同步数据映射,达到我设想的多张表聚合成一个 JSON 貌似要使用 EMR 引擎,我对这块特别不熟悉.完全没有头绪感觉 EMR(我理解为大数据相关的工具)学习成本太高了..
总结一下想了解的问题:
1.如果有其他方案,请不吝赐教
2.麻烦帮我权衡一下使用 Kettle 还是 DataWorks(二个都不会用,不是很想学大数据相关的技术 纯门外汉)
考虑 DataWorks 的原因是我们公司喜欢上云服务,减轻运维压力
