Brentwans
V2EX  ›  问与答

关于企业私有部署大模型解决数仓建模的问题

  •  
  •   Brentwans · Sep 23, 2023 · 1250 views
    This topic created in 981 days ago, the information mentioned may be changed or developed.

    企业数据仓库质量不高,数据质量建设跟不上业务发展,最后慢慢拖累业务。此外 IT 人员良莠不齐等等问题,都是当前数仓建模的痛点问题。 企业内有各种 dws 表支撑着各种业务需求。然后借住 ETL 工具每天自动维护。很多 dws 之间存在很大的重复性,但是通常只要 ETL 时间在接受范围内,很少有人去优化(当然也没必要优化)但是很快就会发现 ETL 时间过长,T+1 都可能不够了,此时发现很多很难改动了。目前很多企业通过数据湖来增加数据实时性,同时降低 ETL 压力,这是一个很好的方向。但是需要对于企业数据底座进行改造,算上实施和配套人员,成本不低。

    我的想法是,利用大模型通过行业建模数据和企业业务数据进行泛化。通过 AI 得出哪些 ETL 有公共计算,并且将公共计算的结果落表,这个操作是提效的,最终通过空间换时间。

    我和几个客户 IT 部门也聊过,他们也觉得如果可落地还是非常解决问题的。可问题是我找了一圈,好像没发现有做相关的(唯一有点关系的是,杭州那有阿里出来的好像在做,方向一致但是解决方案不是完全利用 AI ,是通过改写计算的 AST 树减少 ETL 计算),这就很郁闷了。会不会是现在大模型可商用的不多,应用成本还是太高,还没到 2b 应用大模型的时候。

    大家怎么看这个。

    4 replies    2023-09-24 11:01:19 +08:00
    NXzCH8fP20468ML5
        1
    NXzCH8fP20468ML5  
       Sep 23, 2023
    通过 AI 得出哪些 ETL 有公共计算

    没必要,写一个 parser 解析一下字段/表血缘不就知道了。
    min
        2
    min  
       Sep 23, 2023
    你是做产品吗?
    有客户愿意买单吗?
    F281M6Dh8DXpD1g2
        3
    F281M6Dh8DXpD1g2  
       Sep 23, 2023 via iPhone
    梦里啥都有
    你以为数仓做成这样是因为啥
    raycool
        4
    raycool  
       Sep 24, 2023
    目前的大模型真的能解决这些问题吗?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2812 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 07:26 · PVG 15:26 · LAX 00:26 · JFK 03:26
    ♥ Do have faith in what you're doing.