求推荐一个可靠的 AI 知识库 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
heirtheloong
V2EX    奇思妙想

求推荐一个可靠的 AI 知识库

  •  
  •   heirtheloong 329 天前 4685 次点击
    这是一个创建于 329 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求大概如此:投入文档后,AI 根据文档回答问题,尽量准确全面。

    随着 AI 发展,出现很多知识库问答工具,但我试用后发现不如人意,拿来做客服或者公司的问答机器人还行,能糊弄一下,可真要投些需要上下文关联回答的问题,不是找不到就是乱说。

    我真的很希望有这么一款工具,哪怕付费,能根据我的知识库给出准确回答,可看做一个加强的搜索引擎,因为写的东西多了,收集的资料多了,后面只有一个印象时再找真的很费时间。如果能用 AI 解决,那会省很多时间。

    再比如读书,很多书没必要细读,只是工具书一类,如果也能丢进去提问,让 AI 指出页面,那能省很多时间。

    可我试用了ChatDOCChatPDFHumata这些工具,都不如人意,AI 的水平还只是机械的找关键词,稍微要些上下文的就不行。一些国内的服务则更差,开源的几个工具也相差无几。还是停留在淘宝 AI 客服类型人的那种水平。

    上面三个服务中最好的是 ChatDOC ,我丢了一篇《风云·惊世少年》第一章,然后提问,一些问题确实能给出答案,但一些问题找不到,还有些根本就是错的。这种提问不像拿 AI 编程,编程可以反复试,一点点调试,这确实省了时间,可提问得到的答案如果错了,写进文章是要被人骂的。如果用于更严谨的领域显然也不可靠。

    我想知道,是我没找到正确的工具,还是我没用用好已有的工具,还是说 AI 的水平根本就这样。

    ChatDOC 测试如下:

    聂人王用的是什么武器?

    聂人王使用的武器是名为“雪饮”的宝刀。这把刀被描绘得华丽而沉重,是他昔日的骄傲与象征,但在故事中,它却被遗弃在暗室中,暗示着聂人王的衰落和他所经历的种种变故。

    简单介绍一下雪饮

    雪饮是一柄不平凡的宝刀,刀长三尺七寸,锋刃无瑕,其外观曾显赫一时,能够斩下无数高手的头颅。然而,如今的雪饮却积满了尘垢,被随意挂于阴暗的一角,周围则是一些普通的农具,展现出其昔日光辉的消逝[1]。这柄刀不仅是武器,更承载着聂人王家族的荣光与困扰,象征着曾经的辉煌与现今的落魄[6]。对于聂风来说,尽管他还小,但对这把刀的力量充满了好奇,渴望能够像父亲一样掌握它[1]。

    聂大嫂是谁?

    聂大嫂是聂风的母亲,名叫颜盈。她是一位美丽的女性,文中描述她有着令人惊艳的外貌,并且在家庭生活中承受着对过去辉煌时光的怀念与对现状的不满。在文章中,她表现出对丈夫聂人王的失望,并通过做家务来抒发内心的怨恨和不满。

    断帅用的是什么武器?

    根据文档内容,断帅所用的武器是剑。文中提到他是“南麟剑首”,这表明他精通剑术,并且在多个段落中提到了他的剑术修为及对对手的挑战。

    火麟剑是谁的武器?

    火麟剑是聂人王的武器。在文中提到,聂人王是曾经叱诧一时的天下第一刀客,火麟剑作为他的武器,象征着他曾经的辉煌和武林地位。

    那你为什么之前说聂人王用的是雪饮刀?

    文中提到聂人王是“北饮狂刀”,而雪饮是他的宝刀。雪饮刀在文中被描绘为一柄绝世的宝刀,与聂人王的身份和过去的辉煌密切相关[1]。同时,雪饮除了是聂人王的武器,也是其家族荣光的象征,承载着过往的辉煌和现状的困扰。因此,提到聂人王时,自然会提到他使用的雪饮刀。

    火麟剑到底是谁的武器?

    在文中并没有直接提到“火麟剑”的具体信息和归属,然而提到了一个名叫“断帅”的角色,他是南麟剑首,修为极高,对聂人王的到来感到喜悦。不管是“火麟剑”还是“南麟剑”,文中并没有解释其具体的关联或归属。因此,无法根据当前文档内容回答火麟剑是谁的武器。

    其中关于火麟剑的归属,其实文中已有,只是 AI 没能提取出来:

    |500

    这里有个简单推理:拿火麟剑的人是南麟剑首断帅外号“南麟剑首”断帅的武器是火麟剑。可 AI 没完成,偏机械了。我也试着用 Obsidian 结合 AI 插件,在本地完成向量,提问 CHATGPT ,得到的答案也有类似问题,甚至更差。

    如上,希望有有大佬能解答一下这些困惑。

    28 条回复    2025-11-06 12:17:53 +08:00
    KcKXpykSg2777f5I
        1
    KcKXpykSg2777f5I  
       329 天前
    现在的水平就这样,其实向量化的数据库也会丢失很多上下文,相关性的信息,你的需求更适合跟超长上下文的模型对话。不过还是推荐一下 CherryStudio ,最新的版本支持自己选择向量化模型和对话模型,可以多尝试一些组合,说不定能找到适合你的。
    lointo
        2
    lointo  
       329 天前 via Android
    试试 notebooklm google 出品的在线知识库
    还有本地的 cursor.把小说切分成章节加载进去 再试下
    bingordinary188
        3
    bingordinary188  
       329 天前 via iPhone
    试下 graphed
    bingordinary188
        4
    bingordinary188  
       329 天前 via iPhone
    @bingordinary188 graphrag
    heirtheloong
        5
    heirtheloong  
    OP
       329 天前
    @lointo 稍微试了下,回答比 ChatDOC 强很多,比如上面提到的火麟剑主人的回答,他就找到了:“断帅用的是火麟剑。 袁氏兄弟看到断帅的剑,认出那是火麟剑,非常吃惊。 断帅也承认自己是南麟剑首。”

    但仍有不全面的问题,比如我问他聂风掌握了哪些武功,他只找到“冰心决、点穴法(其实就是兽穴法)、风神腿”,但其实还有一门鬼虎所传的“急转步法”。进一步追问下倒是得到了这套步法,可又开始胡说八道:

    > 除了您提到的武功之外,聂风还掌握以下武功:
    > ●鬼虎所授轻功步法: 在鬼虎的洞穴中,鬼虎传授给聂风一套独特的轻功步法。 这套步法非常精妙,能够帮助聂风在与巨熊搏斗中躲避攻击。 后来在与独孤鸣比试时,聂风也是用这套步法躲避了独孤鸣的“亢龙有悔”。
    因此,聂风所掌握的武功招式可以总结为以下几点:
    > ●内功心法: 冰心诀
    > ●轻功: 鬼虎所授轻功步法
    > ●腿法: 风神腿
    > ●剑法: 霍家剑法
    > ●点穴: 点穴法
    > 值得一提的是,虽然聂风精通霍家剑法,但他更倾向于使用腿法和轻功,这可能与他性格中善良温和的一面有关。

    其中“霍家剑法”显然是步惊云的武功。

    我会再用出版书籍试试,看面对纯知识类文本的效果如何。
    xieqiqiang00
        6
    xieqiqiang00  
       329 天前 via Android
    我也想要,有没有本地就能跑的,工作用数据不能外泄
    wangweiggsn
        7
    wangweiggsn  
       329 天前
    我测了 kimi 算是相对还好的了,但也有上面说的问题。
    heirtheloong
        8
    heirtheloong  
    OP
       329 天前
    @wangweiggsn 刚试了下 KIMI ,确实结果较好,但也确实和谷歌的 notebooklm 一样,当文本一长,就不能准确回答,特别是相关信息一散,就不能总结。我丢了《中国古代史教程》进去,KIMI 虽说只能读前 60%,可一让他介绍某个人物,有时还是说没有,可直接搜都能搜到名字。我截下该人物对应的章节,就能较好总结。

    可如果是小说这类,一个人物散见于全书各处,你再让他总结,就经常张冠李戴、不全面、胡说八道。
    lointo
        9
    lointo  
       329 天前 via Android
    @xieqiqiang00 那就用 cursor 然后自己用本地模型 ollama 这样子的
    lointo
        10
    lointo  
       329 天前 via Android
    @heirtheloong 试试 cursor 么
    emonber
        11
    emonber  
       329 天前
    试试 ima.copilot ?
    zhaoyi1234
        12
    zhaoyi1234  
       328 天前 via Android
    你这种情况适合用 图向量工具,例如 lightrag 等,不过需要一些开发量
    lucybenz
        13
    lucybenz  
       328 天前
    在线的 百川 AI
    离线的 MaxKB
    这俩楼主测试过没有,我目前在用这俩
    heirtheloong
        14
    heirtheloong  
    OP
       326 天前
    @lucybenz MaxKB 之前用过,我移动端 3070 本地向量+Gemini 提问,效果很差,基本也就是原句才能找到这种,拿来做客服问答或者企业对外机器人还行,自己正经用不行,百川没试过
    heirtheloong
        15
    heirtheloong  
    OP
       326 天前
    @lointo 试过了,同样是《中国古代史教程》和《风云 3_倾城之恋》,跟谷歌的 notebooklm 差不多,在一个水平上。比如前者,叫他总结下某某特征,能说得有模有样,但一问细一点的东西,就全不知道。对于后者,效果更差。要他“介绍下梦这个角色”,他说没有这个角色。再叫他介绍下聂风相关人物,他又能找到“梦”,可是又缺个步惊云这种重要角色。还是那个问题:你让他找全面,他就胡说、张冠李戴。你让他准确,他就找不到、找不全。

    如果拿来水论文,其实谷歌那个就很好了,毕竟免费额度也不少。这个我看官网只有 14 天试用,然后又基于 VS Code ,对于程序员可能很方便?能直接查找自己的代码库,并直接插入代码。但对一般用户就不甚好用了。

    还是看你的文本,如果是那种特别机械的文本,可能效果会不错。也看你的要求,如果只是泛读,写点综述,那也可以。但指望他帮你模糊搜索,还指出位置,那真的做不到。
    heirtheloong
        16
    heirtheloong  
    OP
       326 天前
    @lucybenz 百度的刚用过了,除了其他 AI 通用的问题外(出错、漏答、张冠李戴),还有一个新问题:即使你要求他基于文本,他还是会引用网络资料。比如我问他聂风的人际关系,要求他不要引用网络资料,他本该基于小说第三部,可结果还是出现了小说中没有的角色(怀空、第二梦),即使如此,也不全面。
    heirtheloong
        17
    heirtheloong  
    OP
       326 天前
    @zhaoyi1234 我能力最多也就配置下别人开发好的,你整些 python 代码我还能给你跑起来,再往上我就不行了
    lucybenz
        18
    lucybenz  
       326 天前
    @heirtheloong 百川? 谢谢你的测评,回头我也体验下你前边提到的那些方案; 我是做的数字人对话系统,目前场景要求每那么严苛;
    forestrs
        19
    forestrs  
       326 天前
    可以试试秘塔搜索,支持自己传文件上去问,众多 AI 搜索的工具里面我使用体验最好的一个了
    sloppysop
        20
    sloppysop  
       301 天前 via Android
    希望有一个可以本地运行的 gpt 来消化自己存的书,写的日志,消化收藏夹,可以随时提问。前几天看有 AnythingLLM 加 Deepseek ,还没配置成功
    shark000
        21
    shark000  
       262 天前 via iPhone
    楼主有找到好用的工具了吗,cherry studio 怎么样
    heirtheloong
        22
    heirtheloong  
    OP
       261 天前
    @shark000 显然没有,现在的大模型能力有限。这么解释吧:

    当前大模型有上下文限制,而一本书显然超过这个限制,更别说知识库了。所以要让 AI 读书、读知识库,必须进行向量。但向量化后,AI 也做不到读你给的书,因为上下文仍然超过了他的上下文长度,所以 AI 只会在其中搜索跟你提问相关的段落,读一部分。

    这会带来什么问题呢?向量本质就是“切”文本,把文本切成长短不一的部分,在向量空间展示他们间的关联程度。所以一定会丢信息,不管你切得多“碎”,都会丢信息。所以这东西配合 AI ,本质就是个高级模糊搜索,还因为丢信息,实质体验并没有那么好。

    举个例子,你需要的信息刚好包含在 AI 允许的上下文长度中,把这段文本丢给 AI ,一般能问出你要的结果。可如果你把这段文本丢进知识库,向量化后,再问 AI ,AI 就不一定能给出正确的答案了。

    这种程度的都做不到,那么一些更高级的就更不要想了,比如:

    1. 我有一本书,相关人物的信息散见于各章节,我想让 AI 帮我整理该人物地设定。做不到,因为 Ai 本质只是在向量空间中找这个人物关联高的词,再读对应段落,做个大致总结。他不可能像人一样那么细致,更别说作者对同一个人物还有不同称呼,人能理解并予以总结,但 AI 不行。

    2. 需要推理的时候。比如你建立几个人物页面,一个页面说 A 是 B 的儿子,另一个说 B 是 C 的儿子,都很长。现在你问 AI ,A 和 C 是什么关系? AI 未必能答得出来。因为 AI 的推理只限于他的上下文长度内,当需要推理的信息混杂在知识库中,他首先难以找到对应信息,再一个找到了也未必能推理得出来。

    以上体验基于 Obsidian 的 SmartComposer 插件,用 OpenAI 的 text-embedding-3-smal 向量化我的知识库后,再用 DeepSeek-R1 和 gpt-4o-mini 提问得到的一些体验。用于提问的文本基本来自《猎魔人》的 wiki ,这已经相当规范的文本了,如果你的文本质量还不如这个,我估计使用体验想必难以保证。

    我对 AI 的理解可能也有误,如果有专业人士可以指出,但想来现在的大模型可能真的只有这个水平了。

    如果你确实有需求,可以用我的组合,至少能当个稍好的模糊搜索,多的就不能指望了。
    shark000
        23
    shark000  
       261 天前
    谢谢,我正想把一些写过的一些材料向量化,然后用大模型写作
    @heirtheloong
    PositionZero
        24
    PositionZero  
       251 天前
    @heirtheloong #8 有试过 MiniMax-Text-01 么,上下文是 Kimi 的两倍,个人体验长文本比 Kimi 好得多
    heirtheloong
        25
    heirtheloong  
    OP
       243 天前
    @PositionZero 喜大普奔!谷歌新出的 Gemini2.5Pro 极为逆天,其上下文长度达到了惊人的 1048576tokens !我测试可以丢给他 5 本《猎魔人》并全文阅读!这意味着其理解、整理能力远不是向量+搜索+丢相关内容给模型+提问这种工作流能比的!他能够很好地完成各种模糊搜索、整理、提问工作!

    真的没想到,大模型发展得这么快,竟然用一种我没想到的方式解决问题:直接提升上下文长度。

    建议有需求都去试试,这种上下文长度已经完成可用了,目前网页端开放白嫖,只要一个米国节点。极为强大,完全不是市面上那些知识库工具能比的。
    LiZyy
        26
    LiZyy  
       176 天前
    跟 AI 有啥关系,本质上还是搜索的不准确,AI 在其中做的只有两件事,第一件事解析你输入的问题,尽可能多的分析出需要搜索的关键字,第二件事根据搜索到的内容总结归纳,所以核心还是匹配不准确的问题,常规情况下由于 ai 上下文的限制,都会对文件进行切片处理,通过会通过向量数据库匹配,而向量的准确度在大数据量的情况下准确度可想而知,一般会通过调整匹配算法,或者多路召回添加关键字匹配增强准确度,因为最终 ai 回答的准不准,核心还是搜索这一块
    LiZyy
        27
    LiZyy  
       176 天前
    当然提高上下文长度也是提高准确度的方法之一,因为最终 ai 分析的切片越多,命中的几率自然会提高
    veotax
        28
    veotax  
    PRO
       22 天前
    问答准确率上,casibase > dify > ragflow
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2628 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 01:41 PVG 09:41 LAX 17:41 JFK 20:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86