V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录

友情链接(独立内容)

OneOctet
V2EX  ›  技术栈

数据统计问题请教,数仓大哥请进,帮上忙的可以发红包感谢🙏

  •  
  •   OneOctet · 3 天前 · 332 次点击
    我是后端开发,现在需要处理一些数据统计的需求,不想在业务库进行,需要自己搭建数仓。
    统计需求,都是一些用户订单数据统计,电商财务报表等,订单量千万左右,每日新增 5w 左右。

    例如统计每个用户,每日下单数量。用户在 3/9 下了 3 单,则需要 t+1 统计出一条记录
    user_id = 123 date = 03/09 count = 3
    如果 3 / 10 号,用户退款了 3 / 9 的 1 个订单,则需要刷新记录为
    user_id = 123 date = 03/09 count = 2

    然后就是一些其他的统计需求,比如每天每个商户的营业额,订单数之类的,结算报表等

    请问数仓应该用什么,想用实时的数仓,目前选定 doris
    了解了一下数仓一般都是分层处理的 ods -> dwd -> dws - ads

    ods 层的表应该怎么建?按业务数据库一样直接照搬吗?
    例如订单表 order, 表模型选什么?主键模型( Unique Key Model )吗?分区键怎么选?

    有人指条明路吗?问 AI 给的方案都是模凌两可的,还是真人指导一下踏实。提前感谢了
    1 条回复    2026-03-10 17:22:22 +08:00
    netnr
        1
    netnr  
       3 天前
    非专业

    订单量千万,日增 5w ,数据量不大,数据库 doris 、clickhouse 、duckdb 随便选
    表结构完全一致,做个定时任务,实时查询最近 10 天(即可能变化的数据)的数据,直接写入 order 表(写入前 truncate ),还有一张 order_history 永远不变的,查询时 union all 两表统计,这数据量 duckdb 秒出结果
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1028 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:44 · PVG 02:44 · LAX 11:44 · JFK 14:44
    ♥ Do have faith in what you're doing.