公司打算把数据仓库迁移到 hadoop 上，各位有什么好的思路能借鉴吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2597 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前情况是这样的，其实数据仓库差不多 2 个 T，涉及到订单跟用户操作日志的表会比较大，一个表有 70G，但是因为某些原因不能拆成两个表（或者说是不想去排查拆完之后那些存储过程会被影响到），在加上现在数据量大生产也比较慢的原因，所以 boss 打算升级一下用 hadoop。但目前公司没有 hadoop 的相关人员。

然后就打算用 hbase 来存储数据，但是我查了，hbase 适合存储那些非结构化，稀疏的内容。但我们的表都是完完整整的二维表。我觉得用 greenplum 这样的分布式数据库就可以解决目前的问题（指的是仓库）。 boss 现在叫我先把数据迁到 hadoop 看看，应该是有点先来试一下的意思。

现在我想问，有没有其他人也是差不多这种情况，你们的 hadoop 仓库是怎么搭建的？我们 boss 的考虑是什么？

hadoop

仓库

Hbase

boss

1 条回复 • 2020-03-18 22:15:31 +08:00

gaodeng2008

2020 年 3 月 18 日 via Android

你们 boss 可能痴迷于的 hadoop 的一些概念。。。看看最新 gartner 对 hadoop 的点评。。可以看看大牛的解析 https://greenplum.cn/2019/09/19/hadoop-runs-out-of-gas/