想利用大模型搭建企业内部的问答系统,但关于「公司项目代码」的问题,如何处理 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ahjiangwu
V2EX    问与答

想利用大模型搭建企业内部的问答系统,但关于「公司项目代码」的问题,如何处理

  •  
  •   ahjiangwu 2024-08-26 16:14:14 +08:00 1763 次点击
    这是一个创建于 461 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题描述:准备搭一套企业内部问答系统,其中包含研发团队中通用的组件使用的问题,因此一方面需要把相关组件的使用手册收录到知识库中,另一方面希望能直接把相关代码喂给大模型,这样在回答相关问题时能给出些示例

    诉求:计划在公司搭一套大模型的对话平台,回答企业内部员工的问题
    使用群体:公司员工
    知识库内容:

    • IT 知识:包括域账号、网络、办公设备等
    • 人事:包括入离职、人事规章制度等
    • 行政:包括公司相关规章制度等等
    • 研发助手:主要包含公司内部通用组件的问答

    方案:

    • 模型:Llama3.1-8b
    • 应用:dify (计划使用 dify ,如果效果不好,可能会自己开发替换 dify )
    • 向量库:一部分使用 dify 自带的,一部分准备自己用 milvus 搭建,提供 api 在 dify 流程绘制中使用

    以上知识库的搭建基本能满足非研发相关的问题咨询,但是关于研发相关的,效果可能不好,因此该如何处理代码相关的问答,能否通过 RAG 来实现,是否需要 Fine-tuning ?

    各位有没有过类似的实战经验,或者提供些关键词,方便我了解下

    9 条回复    2024-08-27 09:10:07 +08:00
    LuckyLauncher
        1
    LuckyLauncher  
       2024-08-26 16:55:45 +08:00
    现在 RAG 的准确度基本都不高,导致大模型幻觉还是很严重,你可以试试,效果应该不会很理想
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       2024-08-26 17:00:56 +08:00
    这个事只会给你惹一身骚,不会有别的结果
    ahjiangwu
        3
    ahjiangwu  
    OP
       2024-08-26 17:02:11 +08:00 via iPhone
    @LuckyLauncher 是的,所以现在没有很好的思路,不知道该如何下手,按照我自己的理解,纯 rag 应该不咋样,代码库的向量化也不知该如何做
    ahjiangwu
        4
    ahjiangwu  
    OP
       2024-08-26 17:03:23 +08:00 via iPhone
    @liprais 倒不是组织任务,只是想探索性的尝试
    Clannad0708
        5
    Clannad0708  
       2024-08-26 17:38:09 +08:00
    最近在搭建 kubelfow+milvus 。调研搭了一套,倒是没有实际使用情况。蹲蹲楼主后续技术选型,怎么实现的模型训练与 AI 的一整套流程
    targz
        6
    targz  
       2024-08-26 17:59:39 +08:00
    使用群体是公司内部的话,可以玩,但是要少玩
    yinmin
        7
    yinmin  
       2024-08-26 20:42:54 +08:00 via iPhone
    ( 1 )你需要微调大模型,而不是 rag
    ( 2 ) 8B 是玩具,需要至少 50B 以上的参数
    ( 3 )大模型会幻想,回答有误导致的问题,锅一个一个甩过来,OP 能接住吗?
    75S3CWXNN0VQ84mg
        8
    75S3CWXNN0VQ84mg  
       2024-08-26 20:51:05 +08:00
    要明确自己这个机器人的边界是啥,初期最好聚焦 1-2 个功能点,使用 prompt 进行问题的识别与拆解。

    llm 不是一颗万能的银弹,好的 robot 背后需要非常大的工程开发。先从小功能做起吧。
    ahjiangwu
        9
    ahjiangwu  
    OP
       2024-08-27 09:10:07 +08:00 via iPhone
    @yinmin 感谢分享
    被甩锅倒是还好,用 8b 只是不太想申请太多硬件资源,关于代码作为数据的微调有没有实践经验可以分享一下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     831 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 22:05 PVG 06:05 LAX 14:05 JFK 17:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86