V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
macvis
V2EX  ›  程序员

数据开发纯小白,想问个问题

  •  
  •   macvis · 2023-07-22 21:29:34 +08:00 · 1076 次点击
    这是一个创建于 484 天前的主题,其中的信息可能已经有所发展或是发生改变。

    hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,

    hadoop 具有 hdfs 文件系统管理功能,

    hive 则是 hadoop 的 hql 管理版增强包,

    那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象

    但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?

    换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗

    9 条回复    2023-07-23 12:49:49 +08:00
    liprais
        1
    liprais  
       2023-07-22 21:35:22 +08:00
    你要读 excel 自己写个 serde 就行了
    hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义
    macvis
        2
    macvis  
    OP
       2023-07-22 21:38:58 +08:00
    @liprais 突然明白了,我不必拘泥于文件格式,写入读取时关注序列化与反序列化,要存取什么使用对应的 serde 就好了,对吧
    Alias4ck
        3
    Alias4ck  
       2023-07-22 21:45:22 +08:00
    你这种非结构化的数据 ,hive 是无法处理的,
    对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据
    你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es
    不过主流方案也是存储它在 hdfs 上面的路径吧
    rrfeng
        4
    rrfeng  
       2023-07-22 21:49:38 +08:00 via Android
    hdfs 是 ext4
    hive 是 mysql

    这样对比是不是容易理解了
    macvis
        5
    macvis  
    OP
       2023-07-22 21:56:38 +08:00
    @rrfeng 这个我就秒懂了
    macvis
        6
    macvis  
    OP
       2023-07-22 21:56:56 +08:00
    @Alias4ck 谢谢哈, 我去看看 hbase
    rrfeng
        7
    rrfeng  
       2023-07-22 21:58:38 +08:00 via Android
    HBase 是 MongoDB 。

    不如说一下你的原始需求
    macvis
        8
    macvis  
    OP
       2023-07-22 22:04:47 +08:00
    @rrfeng 公司要搞一个数据中台,接入其他部门的数据,结构化的非结构化的都要存。
    xue777hua
        9
    xue777hua  
       2023-07-23 12:49:49 +08:00
    可以实现 增加一个 udf 就行 用来解析文件
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3427 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:48 · PVG 19:48 · LAX 03:48 · JFK 06:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.