V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Leeci
V2EX  ›  数据库

给大佬们请安.......hive 中日跑 2 亿条数据,那么这张表该怎么设计?谢谢了~

  •  
  •   Leeci · 2020 年 6 月 4 日 · 2798 次点击
    这是一个创建于 2054 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2020 年 6 月 4 日
    银行项目,单表日流水 2 亿左右,整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式,想看看坛子大佬有没有更好的方法。
    15 条回复    2020-06-09 16:40:55 +08:00
    yincrow
        1
    yincrow  
       2020 年 6 月 4 日
    表名:hive_zhong_ri_pao_2_yi,不客气
    yincrow
        2
    yincrow  
       2020 年 6 月 4 日
    @yincrow 想了想不太合适,hive_china_japan_run_two_Billion 这个比较好
    smallpython
        3
    smallpython  
       2020 年 6 月 4 日
    越简单越好
    monkeyWie
        4
    monkeyWie  
       2020 年 6 月 4 日
    用 kudu
    Leeci
        5
    Leeci  
    OP
       2020 年 6 月 4 日
    @yincrow 我丢~不是问表名怎么取啦,是表的物理结构,我现在只能想到传统的分区,并且做增量的方法,还有没有其他的方法啊?
    Leeci
        6
    Leeci  
    OP
       2020 年 6 月 4 日
    @monkeyWie KUDU 是什么?因为日跑两亿,所以在建表设计上要考虑性能问题
    Leeci
        7
    Leeci  
    OP
       2020 年 6 月 4 日
    @monkeyWie KUDU 可能不行,做的银行项目,环境都是定的,不能改 - -!
    whx123
        8
    whx123  
       2020 年 6 月 4 日
    需求不够详细啊
    Leeci
        9
    Leeci  
    OP
       2020 年 6 月 4 日
    @whx123 银行项目,单表日流水 2 亿左右,整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式,想看看坛子大佬有没有更好的方法。
    imzhazha
        10
    imzhazha  
       2020 年 6 月 4 日 via Android   ❤️ 2
    你就说了日数据量 2 亿,其他啥都没说,别人没法给建议。你啥业务,要出什么数据,出了什么问题,你得把你要干嘛讲清楚。优化是要看业务场景的。
    Leeci
        11
    Leeci  
    OP
       2020 年 6 月 4 日
    @imzhazha 抱歉大佬,已经更新了,抱歉抱歉
    glfpes
        12
    glfpes  
       2020 年 6 月 4 日
    1 天 2 亿行对 hive 来说毛毛雨,按天分区就好

    其实业务需求才是你该考虑的,比如要不要根据城市也分区之类的。
    Leeci
        13
    Leeci  
    OP
       2020 年 6 月 4 日
    @glfpes 因为我一直从事的都是银行,银行虽然会用到 hive 和 hadoop 那一套,但实际上也就是批处理好一点。城区分区这种我也有想的,就在想对于 hive 有没有什么更好一点的优化方案
    aladdindingding
        14
    aladdindingding  
       2020 年 6 月 5 日
    一天才两亿 你们数据经常改动吗 不改的的话用 clickhouse 我们还是单机一天 5 亿妥妥的
    Leeci
        15
    Leeci  
    OP
       2020 年 6 月 9 日
    @aladdindingding 要改动的,而且环境是固定的,不能向科技部提出增加一个 clickhouse 什么的 - -!
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5775 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 06:02 · PVG 14:02 · LAX 22:02 · JFK 01:02
    ♥ Do have faith in what you're doing.