《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
xuxin123122
V2EX    程序员

《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

  •  1
     
  •   xuxin123122 1 天前 497 次点击

    标题: 我们实验室开源了一本《大模型数据工程》指南,梳理了 LLM 从预训练到 RAG 的完整数据流水线

    正文:

    大家好。

    最近我和团队( datascale-ai )在集中精力维护一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这也是我们近期开源输出的一个核心项目,想和大家分享一下。

    GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

    在线阅读: https://datascale-ai.github.io/

    为什么要做这个项目?

    现在行业里大家都认可 "Data-centric AI",但现实是,网上的资料非常碎片化。多数教程都在教怎么调 API 、怎么写 Prompt ,但当开发者真正在一线干活时,怎么清洗几十 TB 的预训练数据?多模态数据怎么对齐?怎么搭一个稳定不翻车的 RAG 数据流水线?踩的坑极其多。

    我们发现系统性的实战资料极度稀缺,所以干脆把实际工作中的经验和主流方案沉淀下来,写了这本开源书。希望帮大家从“摸着石头过河”到建立完整的底层逻辑。

    这本书里有什么?

    项目整体遵循“基础设施 -> 专项场景 -> 端到端实战”的结构:

    1. 拒绝玩具框架,全企业级技术栈: 没有停留在纯理论,直接上目前主流的工具。分布式计算用 Ray Data / Spark ;存储讲 Parquet / WebDataset ;多模态对齐涉及 CLIP / ColPali 等。
    2. 四大核心场景全覆盖:
    • 文本预训练数据工程(采集、清洗、去重)
    • 多模态数据工程(图文对、重描述、音视频)
    • 对齐与合成数据(指令微调 SFT 、偏好数据)
    • 应用级流水线(文本 RAG 与多模态 RAG )
    1. 5 个直接可跑的实战项目: 全书包含 5 个端到端的实战代码,比如“Mini-C4 预训练集构建”、“垂直领域法律专家 SFT 数据集”、“企业财报多模态 RAG”。代码都在仓库里,可以直接复用落地。

    写在最后

    项目采用 MIT 协议,支持中英双语,基于 MkDocs 构建。

    目前还有很多可以完善的地方,如果你对 LLM 数据流水线感兴趣,或者正在做大模型相关的业务,欢迎来看看。非常欢迎大家在 Repo 里提 Issue 交流,或者提交 PR 一起共建。

    如果觉得内容对你有帮助,求个 Star 支持一下,感谢!

    2 条回复
    ghostben
        1
    ghostben  
       1 天前
    https://datascale-ai.github.io/
    404
    There isn't a GitHub Pages site here.
    xuxin123122
        2
    xuxin123122  
    OP
       1 天前
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2675 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 20ms UTC 04:36 PVG 12:36 LAX 21:36 JFK 00:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86