这是一个创建于 1135 天前的主题,其中的信息可能已经有所发展或是发生改变。
没做过性能评估这块,目前来了个需求,不知道咋评估了。
大约 10PB 的数据,单条 5kb ,通过 kafka 集群通过 flink 实时接入到 hdfs ,然后上面通过 spark 做数据处理。
想问下大约要多少台机器,每台机器啥配置。kafka 几个节点,怎么部署呢,麻烦 v 吧大佬们了,帮忙给个参考!非常感谢!
另外这个 10PB 的意思是,hdfs 保存最新的 10PB 就可以了,要定期的清理,数据是实时流入的。