V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Brentwans
V2EX  ›  问与答

关于企业私有部署大模型解决数仓建模的问题

  •  
  •   Brentwans · 2023-09-23 11:47:16 +08:00 · 790 次点击
    这是一个创建于 430 天前的主题,其中的信息可能已经有所发展或是发生改变。

    企业数据仓库质量不高,数据质量建设跟不上业务发展,最后慢慢拖累业务。此外 IT 人员良莠不齐等等问题,都是当前数仓建模的痛点问题。 企业内有各种 dws 表支撑着各种业务需求。然后借住 ETL 工具每天自动维护。很多 dws 之间存在很大的重复性,但是通常只要 ETL 时间在接受范围内,很少有人去优化(当然也没必要优化)但是很快就会发现 ETL 时间过长,T+1 都可能不够了,此时发现很多很难改动了。目前很多企业通过数据湖来增加数据实时性,同时降低 ETL 压力,这是一个很好的方向。但是需要对于企业数据底座进行改造,算上实施和配套人员,成本不低。

    我的想法是,利用大模型通过行业建模数据和企业业务数据进行泛化。通过 AI 得出哪些 ETL 有公共计算,并且将公共计算的结果落表,这个操作是提效的,最终通过空间换时间。

    我和几个客户 IT 部门也聊过,他们也觉得如果可落地还是非常解决问题的。可问题是我找了一圈,好像没发现有做相关的(唯一有点关系的是,杭州那有阿里出来的好像在做,方向一致但是解决方案不是完全利用 AI ,是通过改写计算的 AST 树减少 ETL 计算),这就很郁闷了。会不会是现在大模型可商用的不多,应用成本还是太高,还没到 2b 应用大模型的时候。

    大家怎么看这个。

    4 条回复    2023-09-24 11:01:19 +08:00
    NXzCH8fP20468ML5
        1
    NXzCH8fP20468ML5  
       2023-09-23 12:02:14 +08:00
    通过 AI 得出哪些 ETL 有公共计算

    没必要,写一个 parser 解析一下字段/表血缘不就知道了。
    min
        2
    min  
       2023-09-23 14:04:52 +08:00
    你是做产品吗?
    有客户愿意买单吗?
    liprais
        3
    liprais  
       2023-09-23 14:06:38 +08:00 via iPhone
    梦里啥都有
    你以为数仓做成这样是因为啥
    raycool
        4
    raycool  
       2023-09-24 11:01:19 +08:00
    目前的大模型真的能解决这些问题吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2010 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:18 · PVG 00:18 · LAX 08:18 · JFK 11:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.