如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题，持有 V2EX Solana Token 会在每日签到时获得额外铜币：
https://www.v2ex.com/solana

This topic created in 125 days ago, the information mentioned may be changed or developed.

📚 《大模型数据工程》指南：从预训练到 RAG 的完整数据流水线

大家好！

最近我和团队（datascale-ai）集中精力维护了一本关于大模型数据工程（ Data Engineering for LLMs ）的开源书。目前内容已经基本成型，这是我们近期开源输出的核心项目，特此分享给社区的小伙伴们。

现在行业内公认 "Data-centric AI" 是核心，但现实情况是网上的资料极其碎片化。

痛点：多数教程集中在调 API 或写 Prompt ，但一线开发者真正面对的是：如何清洗几十 TB 的预训练数据？多模态数据如何高效对齐？如何搭建一个稳定不翻车的 RAG 数据流水线？
初衷：我们发现系统性的实战资料极度稀缺，因此决定将实际工作中的经验和主流方案沉淀下来，帮助大家从“摸着石头过河”转向建立完整的底层逻辑。

项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构，拒绝“玩具框架”，直接对接企业级技术栈：

全书包含 5 个端到端的实战代码，可直接复用落地：

目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣，或者正在进行大模型相关业务，非常欢迎来逛逛！

欢迎交流：请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助，求个 Star ⭐️ 支持，感谢大家！

Supplement 1 · Mar 17

有无优化意见，或者能否帮忙点个 star ，快到 1K 了，谢谢大家 OVO

No Comments Yet

[分享] 《LLM 数据工程》指南：从预训练到 RAG 的完整数据流水线（希望大佬指点）