有一批数据在数据库中,分 128 表按小时增量存储,现在有多个机器 每一小时处理一次,这些机器是消费者角色, 每个小时生产数据后,及时消费处理这些数据,待这个小时的数据全部处理完成后 汇总这一个小时的数据,这里面涉及多个分布式协调问题, 请教一个比较好的解决方案?
注意点
谢谢大家啦!麻烦大家推荐案例或者书籍或者大致思路, 不甚感激!!
1
billlee 2020-08-08 00:02:01 +08:00
这不是典型的 map reduce 问题吗?直接用 spark 得了
|
2
vchat OP @billlee 整体上是这样 但是这个一是没有这么大的数据体量 用 spark 太牛刀了 二是 需要在一个 java 语言的系统中处理
|
3
lhx2008 2020-08-08 00:24:54 +08:00
这种就是流式计算之类的,不要自己写轮子了,也没有必要用 sql 分表什么的。。
|