
模型直接用的是 deepseek 官方 api 。
嵌入式模型选择的是 bge-m3.
知识库维护了企业内部的一些业务文档,但是使用 dify 的分段效果很差。
请问各位优化的方向是什么?优质的知识库文档应该是什么样的格式?
公司有一台价值 50 万的机器可供使用,如果用内部文档去己训练效果会比外挂知识库好吗?
1 tool2dx 291 天前 你这种需要微调模型的,dify 只能算是搜索引擎,提交时上下文限制挺大的,要让 AI 全部理解知识库,怕是很有点难度。 你不如用官方 deepseek 的文档上传功能,我用下来没啥问题,基本都能理解。 |
2 zhywang 291 天前 不建议微调模型,一般企业的知识库数据量太小,容易把模型微调残了 优化方向应该还是从 RAG 知识库入手,试试其他的工具 |
3 maoqiucute OP @zhywang 有其他工具推荐吗 |
4 Goalonez 291 天前 via iPhone 巧了,这两天接盘的活也是这个,甚至模型还是公司自己跑的 ds ,麻了。 |
5 zj27 290 天前 自己简单试过 anythingLLM ,可以回答出文档的内容,但是文档很小,模型是本地部署的最小的 1.5B 的 DeepSeeK ,仅供参考,公司内部也有这个 ai 知识库的需求,希望多多交流 |
6 xsen 287 天前 前阵子刚刚做过类似的,要调惨与测试, 1. 父子分段 2. 联合检索,要用 rerank 模型做检索 |
7 maoqiucute OP @xsen 请教一下,知识库文档都是按照什么样的格式维护的,就普通 markdown 吗?还是说要转换为 Q&A 形式的 |
8 xsen 286 天前 @maoqiucute 我们直接上传的是 word 文档,关键是分段配置,还有检索模型要用 rerank嵌入模型效果还是不太好 |
9 wwcxjun 286 天前 via Android 试试 ragflow ?知识库效果应该比 dify 好。 |
10 maoqiucute OP @wwcxjun 目前尝试用了 dify 的父子分段,手动指定分段标识符 有一些效果 |
11 maoqiucute OP @Goalonez 怎么样兄弟,有什么经验分享吗? |
12 maoqiucute OP @zj27 有什么经验分享吗? |
13 aaronlam 254 天前 楼主有相关的经验分享吗?最近刚好也在做这方面的工作。 |
15 cshaptx4869 183 天前 上排序模型效果会好一点 |