通过 dify 搭建了基于企业内部知识库的问答机器人,但是效果非常差 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
maoqiucute
V2EX    Local LLM

通过 dify 搭建了基于企业内部知识库的问答机器人,但是效果非常差

  •  
  •   maoqiucute 291 天前 2779 次点击
    这是一个创建于 291 天前的主题,其中的信息可能已经有所发展或是发生改变。

    模型直接用的是 deepseek 官方 api 。

    嵌入式模型选择的是 bge-m3.

    知识库维护了企业内部的一些业务文档,但是使用 dify 的分段效果很差。

    请问各位优化的方向是什么?优质的知识库文档应该是什么样的格式?

    公司有一台价值 50 万的机器可供使用,如果用内部文档去己训练效果会比外挂知识库好吗?

    15 条回复    2025-06-19 16:28:03 +08:00
    tool2dx
        1
    tool2dx  
       291 天前
    你这种需要微调模型的,dify 只能算是搜索引擎,提交时上下文限制挺大的,要让 AI 全部理解知识库,怕是很有点难度。

    你不如用官方 deepseek 的文档上传功能,我用下来没啥问题,基本都能理解。
    zhywang
        2
    zhywang  
       291 天前
    不建议微调模型,一般企业的知识库数据量太小,容易把模型微调残了
    优化方向应该还是从 RAG 知识库入手,试试其他的工具
    maoqiucute
        3
    maoqiucute  
    OP
       291 天前
    @zhywang 有其他工具推荐吗
    Goalonez
        4
    Goalonez  
       291 天前 via iPhone
    巧了,这两天接盘的活也是这个,甚至模型还是公司自己跑的 ds ,麻了。
    zj27
        5
    zj27  
       290 天前
    自己简单试过 anythingLLM ,可以回答出文档的内容,但是文档很小,模型是本地部署的最小的 1.5B 的 DeepSeeK ,仅供参考,公司内部也有这个 ai 知识库的需求,希望多多交流
    xsen
        6
    xsen  
       287 天前
    前阵子刚刚做过类似的,要调惨与测试,
    1. 父子分段
    2. 联合检索,要用 rerank 模型做检索
    maoqiucute
        7
    maoqiucute  
    OP
       287 天前
    @xsen 请教一下,知识库文档都是按照什么样的格式维护的,就普通 markdown 吗?还是说要转换为 Q&A 形式的
    xsen
        8
    xsen  
       286 天前
    @maoqiucute 我们直接上传的是 word 文档,关键是分段配置,还有检索模型要用 rerank嵌入模型效果还是不太好
    wwcxjun
        9
    wwcxjun  
       286 天前 via Android
    试试 ragflow ?知识库效果应该比 dify 好。
    maoqiucute
        10
    maoqiucute  
    OP
       284 天前
    @wwcxjun 目前尝试用了 dify 的父子分段,手动指定分段标识符 有一些效果
    maoqiucute
        11
    maoqiucute  
    OP
       284 天前
    @Goalonez 怎么样兄弟,有什么经验分享吗?
    maoqiucute
        12
    maoqiucute  
    OP
       284 天前
    @zj27 有什么经验分享吗?
    aaronlam
        13
    aaronlam  
       254 天前
    楼主有相关的经验分享吗?最近刚好也在做这方面的工作。
    XyIsMy
        14
    XyIsMy  
       249 天前
    @aaronlam +1 ,我也是,头太
    cshaptx4869
        15
    cshaptx4869  
       183 天前
    上排序模型效果会好一点
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2651 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 11:53 PVG 19:53 LAX 03:53 JFK 06:53
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86