V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
shanghai1943
V2EX  ›  问与答

漏斗数据分析的技术选项

  •  
  •   shanghai1943 · Mar 11, 2021 · 1237 views
    This topic created in 1875 days ago, the information mentioned may be changed or developed.

    目前我们把埋点数据存放在了 MySQL 表中,现在行数大概是 1.6 亿,数据容量 36GB,索引容量 63GB 。漏斗数据分析是按天纬度来查询,通过 sql+Java 代码统计的方式来处理的,如果时间跨度长的话,统计起来会比较慢。

    想请教一下,该如何做优化?

    网上我查了一下,貌似 spark+hdfs 可以解决类似这样的问题,不知道各位大哥有何高见?感谢。

    6 replies    2021-03-12 10:05:56 +08:00
    lithiumii
        1
    lithiumii  
       Mar 11, 2021 via Android
    每天定时任务,把数量都数出来,存个表
    amoia50
        2
    amoia50  
       Mar 11, 2021 via iPhone
    clickhouse 适合你
    FucUrFrd
        3
    FucUrFrd  
       Mar 11, 2021 via Android
    1.6 亿行,赶紧开除 dba,实操上限一千万行
    shanghai1943
        4
    shanghai1943  
    OP
       Mar 12, 2021
    @lithiumii #1 目前的统计纬度是比较灵活的,相当于可以在这么多的埋点里做排列组合,可以认为统计是随机的。。所以目测定时这个不好搞。。
    shanghai1943
        5
    shanghai1943  
    OP
       Mar 12, 2021
    @amoia50 #2 感谢。我这边研究一下看看
    shanghai1943
        6
    shanghai1943  
    OP
       Mar 12, 2021
    @FucUrFrd #3 小公司。。木有 dba 。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3452 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 04:23 · PVG 12:23 · LAX 21:23 · JFK 00:23
    ♥ Do have faith in what you're doing.