最近在调研"数据湖",发现这个概念真的很抽像,网上大多数定义是,一个可以存放各种类型,结构化或者非结构化原始数据的大仓库。
然后 Hudi 各种和数据湖绑在一起,但是经过学习,我又感觉 Hudi 只是一种支持 acid,upsert/delete 和 cdc 加强版 hive,依然需要在写入时定义 schema,实在是 get 不到和所说的数据湖有什么关系。
1
whileFalse 2021-09-23 20:55:13 +08:00
数据湖就是让 hadoop 能用的一个文件存储系统。
比如因为有一些软件能让 hadoop 读 /写 s3 中的文件,而 s3 又是无限容量的,所以 s3 可以当作数据湖。 |
2
SbloodyS 2021-09-23 22:53:18 +08:00
hudi 批处理性能不太行
|
3
Rocketer 2021-09-23 23:08:05 +08:00 via iPhone
我做过一个所谓数据湖的项目,就是输入端接纳各种数据源,输出端则要转化为一种可查询的的格式,以供数据消费者检索。
用 AWS 的几个服务组合一下就实现了,并不难,但我还是觉得这跟 ETL 没啥区别。 |
4
lithiumii 2021-09-23 23:39:04 +08:00 via Android
我是这么理解的:
以前,数据要定义好类型、关系等等,再按照范式存起来,这个叫数据库。 后来啥都不管了,连文件格式都不管了,先存起来再说,就起个名字叫数据湖,意思是啥都在湖里,需要啥现场捞就是了。但毕竟还是要用来查询的,所以不能真的啥都不管,还是需要一定程度的标准化,所以…… |