This topic created in 1168 days ago, the information mentioned may be changed or developed.
没做过性能评估这块,目前来了个需求,不知道咋评估了。
大约 10PB 的数据,单条 5kb ,通过 kafka 集群通过 flink 实时接入到 hdfs ,然后上面通过 spark 做数据处理。
想问下大约要多少台机器,每台机器啥配置。kafka 几个节点,怎么部署呢,麻烦 v 吧大佬们了,帮忙给个参考!非常感谢!
另外这个 10PB 的意思是,hdfs 保存最新的 10PB 就可以了,要定期的清理,数据是实时流入的。