大家好。
最近一段时间,发现一个痛点:网上的资料大都是教怎么微调、怎么写 Prompt ,但真到了一线,面对几十 TB 的预训练数据怎么清洗?多模态怎么对齐?怎么搭一个高可用的 RAG 数据流水线?网上的系统性实战资料极其匮乏,大家基本都在摸着石头过河。
为了打破这种“信息碎片化”,我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。
但毕竟我们的视野和应用场景有限,很多架构设计可能还不够成熟。所以特别发出来,希望能得到各位行业前辈和一线大佬的点评。
GitHub 地址: https://github.com/datascale-ai/data_engineering_book/
我们在项目中做了以下尝试,:
项目采用 MIT 协议,支持中英双语。
现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议,还是直接提 Issue 吐槽,对我们来说都非常宝贵。如果大家觉得这个方向是有价值的,顺手点个 Star ⭐️ 也是对我们极大的鼓励!感谢大家!