V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xuxin123122
V2EX  ›  分享创造

[分享] 《LLM 数据工程》指南:从预训练到 RAG 的完整数据流水线(希望大佬指点)

  •  1
     
  •   xuxin123122 · 11 天前 · 476 次点击

    📚 《大模型数据工程》指南:从预训练到 RAG 的完整数据流水线

    大家好!

    最近我和团队(datascale-ai)集中精力维护了一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这是我们近期开源输出的核心项目,特此分享给社区的小伙伴们。


    💡 为什么要做这个项目?

    现在行业内公认 "Data-centric AI" 是核心,但现实情况是网上的资料极其碎片化。

    • 痛点:多数教程集中在调 API 或写 Prompt ,但一线开发者真正面对的是:如何清洗几十 TB 的预训练数据?多模态数据如何高效对齐?如何搭建一个稳定不翻车的 RAG 数据流水线?
    • 初衷:我们发现系统性的实战资料极度稀缺,因此决定将实际工作中的经验和主流方案沉淀下来,帮助大家从“摸着石头过河”转向建立完整的底层逻辑。

    📖 本书核心内容

    项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构,拒绝“玩具框架”,直接对接企业级技术栈:

    🛠 企业级技术栈

    • 分布式计算:Ray Data / Spark
    • 存储方案:Parquet / WebDataset
    • 多模态对齐:CLIP / ColPali 等

    🎯 四大核心场景全覆盖

    1. 文本预训练数据工程:采集、清洗、去重。
    2. 多模态数据工程:图文对、重描述、音视频处理。
    3. 对齐与合成数据:指令微调( SFT )、偏好数据构建。
    4. 应用级流水线:文本 RAG 与多模态 RAG 。

    💻 5 个直接可跑的实战项目

    全书包含 5 个端到端的实战代码,可直接复用落地:

    • Mini-C4 预训练集构建
    • 垂直领域法律专家 SFT 数据集
    • 企业财报多模态 RAG
    • (更多实战请查看仓库...)

    🤝 写在最后

    • 开源协议:MIT 协议。
    • 语言支持:中英双语,基于 MkDocs 构建。

    目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣,或者正在进行大模型相关业务,非常欢迎来逛逛!

    欢迎交流:请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助,求个 Star ⭐️ 支持,感谢大家!

    第 1 条附言  ·  10 天前
    有无优化意见,或者能否帮忙点个 star ,快到 1K 了,谢谢大家 OVO
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1147 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 17:57 · PVG 01:57 · LAX 10:57 · JFK 13:57
    ♥ Do have faith in what you're doing.