《大模型数据工程》指南:从预训练到 RAG 的完整数据流水线
大家好!
最近我和团队(datascale-ai)集中精力维护了一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这是我们近期开源输出的核心项目,特此分享给社区的小伙伴们。
为什么要做这个项目?
现在行业内公认 "Data-centric AI" 是核心,但现实情况是网上的资料极其碎片化。
- 痛点:多数教程集中在调 API 或写 Prompt ,但一线开发者真正面对的是:如何清洗几十 TB 的预训练数据?多模态数据如何高效对齐?如何搭建一个稳定不翻车的 RAG 数据流水线?
- 初衷:我们发现系统性的实战资料极度稀缺,因此决定将实际工作中的经验和主流方案沉淀下来,帮助大家从“摸着石头过河”转向建立完整的底层逻辑。
本书核心内容
项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构,拒绝“玩具框架”,直接对接企业级技术栈:
企业级技术栈
- 分布式计算:Ray Data / Spark
- 存储方案:Parquet / WebDataset
- 多模态对齐:CLIP / ColPali 等
四大核心场景全覆盖
- 文本预训练数据工程:采集、清洗、去重。
- 多模态数据工程:图文对、重描述、音视频处理。
- 对齐与合成数据:指令微调( SFT )、偏好数据构建。
- 应用级流水线:文本 RAG 与多模态 RAG 。
5 个直接可跑的实战项目
全书包含 5 个端到端的实战代码,可直接复用落地:
Mini-C4 预训练集构建 - 垂直领域法律专家
SFT 数据集 - 企业财报多模态
RAG - (更多实战请查看仓库...)
写在最后
- 开源协议:MIT 协议。
- 语言支持:中英双语,基于 MkDocs 构建。
目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣,或者正在进行大模型相关业务,非常欢迎来逛逛!
欢迎交流:请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助,求个 Star 支持,感谢大家!