V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xuxin123122
V2EX  ›  程序员

尝试梳理了从预训练到 RAG 的数据工程架构,希望大家指点技术栈是否有坑

  •  
  •   xuxin123122 · 4 小时 42 分钟前 · 102 次点击

    大家好。

    最近一段时间,发现一个痛点:网上的资料大都是教怎么微调、怎么写 Prompt ,但真到了一线,面对几十 TB 的预训练数据怎么清洗?多模态怎么对齐?怎么搭一个高可用的 RAG 数据流水线?网上的系统性实战资料极其匮乏,大家基本都在摸着石头过河。

    为了打破这种“信息碎片化”,我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。

    但毕竟我们的视野和应用场景有限,很多架构设计可能还不够成熟。所以特别发出来,希望能得到各位行业前辈和一线大佬的点评。

    GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

    我们在项目中做了以下尝试,:

    • 技术栈选型: 我们选择了 Ray Data 、Spark 和 WebDataset 做分布式处理和存储。想请教下真正处理 PB 级数据的大佬,这套组合在当前的一线业务中还有哪些深坑?有更推荐的现代替代方案吗?
    • 场景覆盖是否有遗漏: 目前我们的内容梳理了四大块:文本预训练数据清洗、多模态处理(图文/音视频)、对齐与合成数据( SFT )、以及应用级 RAG 。这套流水线在大家的实际业务中,还缺失了哪块关键拼图?

    项目采用 MIT 协议,支持中英双语。

    现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议,还是直接提 Issue 吐槽,对我们来说都非常宝贵。如果大家觉得这个方向是有价值的,顺手点个 Star ⭐️ 也是对我们极大的鼓励!感谢大家!

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1089 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:22 · PVG 07:22 · LAX 15:22 · JFK 18:22
    ♥ Do have faith in what you're doing.