有没有用自然语言进行文档内内容搜索的工具? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ztfot
V2EX    程序员

有没有用自然语言进行文档内内容搜索的工具?

  •  
  •   ztfot 2024-07-25 19:32:16 +08:00 1880 次点击
    这是一个创建于 443 天前的主题,其中的信息可能已经有所发展或是发生改变。

    理想的搜索过程: 打开搜索框( Mac 的 Spotlight) -> 输入一句话 -> 根据语意自动搜索到最相关的几个文档 -> 打开文档跳转到某一页

    • 看到 OpenAI 的 text-embeddings 和向量知识数据库就想
    • 有没有一种搜索工具可以直接用语意进行搜索 而不是死板的关键字匹配
    • 输入模糊关键字(甚至是一句话)可以直接匹配到对应含义的代码块,项目,或者文档
    • 文档哪输入模糊关键字或者句子可以直接定位到具体的某一页 PDF
    • 有这个想法其实可以自己写一个,最好是以插件的形式嵌入某些 PDF 阅读器内,自己写一个 PDF 阅读器太费劲了
    • Apple Intelligence 和微软为什么不做这种功能呢? 感觉现在单纯的 AI 问文档内容,不如说我要找到那段内容我自己看一下, 有时候就是不熟悉的说明书太长懒得找(比如嵌入式的说明书)
    12 条回复    2024-07-26 11:28:15 +08:00
    shrugginG
        1
    shrugginG  
       2024-07-25 19:49:49 +08:00
    好想法,码住回来看
    Pteromyini
        2
    Pteromyini  
       2024-07-25 20:03:26 +08:00
    emmm 其实这是 RAG 的基本步骤,根据词向量检索相似度,fastgpt ,dify 之类的都能实现
    xkongstore
        3
    xkongstore  
       2024-07-25 20:04:37 +08:00
    Locus 这个插件
    Inn0Vat10n
        4
    Inn0Vat10n  
       2024-07-25 20:06:03 +08:00
    现在的百度、Facebook 、Google 之类的搜索引擎背后都是带语义检索的啊,这块业界很成熟了,主要还是向量化搜索的方式去做的
    beyondex
        5
    beyondex  
       2024-07-25 20:06:26 +08:00
    sea desktop search 的 AI 版本可。就是对文本 embedding 索引,然后向量搜索。同时支持传统分词搜索。
    不过由于没用 gpu 加速 embeddding 索引生成过程很慢,搜索挺快。
    beyondex
        6
    beyondex  
       2024-07-25 20:07:17 +08:00
    不过是给你相关文件&提供高亮预览的,不是你指定一个文件,然后针对他搜索的。
    googlefans
        7
    googlefans  
       2024-07-25 20:30:43 +08:00
    这需求估计以后会集成到系统里
    ztfot
        8
    ztfot  
    OP
       2024-07-25 21:36:25 +08:00
    @beyondex 这个怎么看起来这么原始呢
    ztfot
        9
    ztfot  
    OP
       2024-07-25 21:37:02 +08:00
    text-embedding 都已经出来这么久了,不知道为什么 Github 上没有人做这个,直接集成在系统中的
    hez2010
        10
    hez2010  
       2024-07-25 21:41:22 +08:00
    微软其实有这个功能,但是只是企业版限定。当你有 Microsoft 365 企业授权之后,在 Bing 登录你的工作账号之后就能用搜索了。它会直接集成你们整个企业的内容进行索引,所以直接就能搜出任何内部资料,并且还会根据每个人的权限不同过滤展示不同的搜索结果,问 Copilot for Microsoft 365 问题也是直接从你们企业资料作为数据来源结合搜索一起出结果。
    feiyan35488
        11
    feiyan35488  
       2024-07-25 21:52:45 +08:00
    RAG , 会返回引用文档和引用片段,加上点击定位就可以了
    109021017
        12
    109021017  
       2024-07-26 11:28:15 +08:00
    Google 的 Gemini 可以用自然语言搜索 Gmail, Google Docs, Google Sheets 中的内容.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     973 人在线   高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 23:06 PVG 07:06 LAX 16:06 JFK 19:06
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86