各位做 RAG 的小伙伴们,最近在搞知识库的时候遇到个问题,想请教一下大家:
向量库召回率不太行,初步排查可能是知识库的分段方式有问题。比如,一段太长或者分段不合理,导致模型检索不到关键信息。
想问大家几个问题:
1 、知识库文档一般用什么格式? 比如纯文本、Markdown ,还是结构化 JSON ?哪种更适合 RAG ?
2 、怎么分段比较合理? 是按段落分,还是按章节分?有没有什么技巧能保证上下文连贯性?
3 、如果文档里有代码、图表或者多模态内容,怎么处理? 直接丢进去,还是得额外处理?目前我尝试在 dify 中通过最大 4000tokens 进行分段,但效果不好,可能是因为上下文断了( pdf 、Markdown 无法很好的分段,因为上下文是有关联的)。
有没有现成的分段策略可以参考?或者有没有工具/库能自动优化分段?欢迎分享!感谢大佬们~
向量库召回率不太行,初步排查可能是知识库的分段方式有问题。比如,一段太长或者分段不合理,导致模型检索不到关键信息。
想问大家几个问题:
1 、知识库文档一般用什么格式? 比如纯文本、Markdown ,还是结构化 JSON ?哪种更适合 RAG ?
2 、怎么分段比较合理? 是按段落分,还是按章节分?有没有什么技巧能保证上下文连贯性?
3 、如果文档里有代码、图表或者多模态内容,怎么处理? 直接丢进去,还是得额外处理?目前我尝试在 dify 中通过最大 4000tokens 进行分段,但效果不好,可能是因为上下文断了( pdf 、Markdown 无法很好的分段,因为上下文是有关联的)。
有没有现成的分段策略可以参考?或者有没有工具/库能自动优化分段?欢迎分享!感谢大佬们~
