有了解数据湖和 hudi 到底是什么关系的吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1213 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在调研"数据湖"，发现这个概念真的很抽像，网上大多数定义是，一个可以存放各种类型，结构化或者非结构化原始数据的大仓库。

然后 Hudi 各种和数据湖绑在一起，但是经过学习，我又感觉 Hudi 只是一种支持 acid,upsert/delete 和 cdc 加强版 hive，依然需要在写入时定义 schema，实在是 get 不到和所说的数据湖有什么关系。

4 条回复 • 2021-09-23 23:39:04 +08:00

whileFalse

2021-09-23 20:55:13 +08:00

数据湖就是让 hadoop 能用的一个文件存储系统。

比如因为有一些软件能让 hadoop 读 /写 s3 中的文件，而 s3 又是无限容量的，所以 s3 可以当作数据湖。

SbloodyS

2021-09-23 22:53:18 +08:00

hudi 批处理性能不太行

Rocketer

2021-09-23 23:08:05 +08:00 via iPhone

我做过一个所谓数据湖的项目，就是输入端接纳各种数据源，输出端则要转化为一种可查询的的格式，以供数据消费者检索。

用 AWS 的几个服务组合一下就实现了，并不难，但我还是觉得这跟 ETL 没啥区别。

lithiumii

2021-09-23 23:39:04 +08:00 via Android

我是这么理解的:
以前，数据要定义好类型、关系等等，再按照范式存起来，这个叫数据库。
后来啥都不管了，连文件格式都不管了，先存起来再说，就起个名字叫数据湖，意思是啥都在湖里，需要啥现场捞就是了。但毕竟还是要用来查询的，所以不能真的啥都不管，还是需要一定程度的标准化，所以……