咨询一个意图识别(向量检索)方面的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Hamao
V2EX    程序员

咨询一个意图识别(向量检索)方面的问题

  •  
  •   Hamao 2024-05-16 14:21:25 +08:00 1524 次点击
    这是一个创建于 514 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前正在调研阿里云的 DashVector 向量检索

    个人背景:没有很深的大模型理论基础,只会一般水平的使用

    调研内容: 我将一大批问题向量化 TextEmbedding.Models.text_embedding_v2 (1536)维后存入向量数据库 其中有一个问题 a. 查询商品 ACD1231321 的价格

    如果我现在有一个新的问题 b.查询 TCTLSS 的价格

    我期望它通过向量检索去关联到 a ,那么实际上他的匹配度并不是很高,那我的想法是将 a 问题抽象成查询商品的价格。

    就是这个意图识别的操作,请问 V 友们有什么比较好的建议呢?

    9 条回复    2024-05-17 09:08:14 +08:00
    Hamao
        1
    Hamao  
    OP
       2024-05-16 14:41:43 +08:00
    就相当于真实的问题中是包含一个变量的
    查询商品{item_name}的价格,这个让我很苦恼,不知道如何去规避掉他的影响,使得真实的问题 与 向量数据库中的范例更加的贴近
    0x3933030
        2
    0x3933030  
       2024-05-16 16:52:15 +08:00   2
    文本向量化后的出来的向量,a 和 b
    如果 a 和 b 是相近的话,那么根据向量化算法,a 和 b 的文本也是相似的。
    反过来说,你想要通过 b 的原始文本和 a 的原始文本向量相近,那么只能够调整你的向量化算法的权重。
    maolon
        3
    maolon  
       2024-05-16 17:04:37 +08:00 via Android   2
    这场景不是更适合 sqlretriever 么,你的问题转化 sql 然后查询数据库。vector db 更适合搞知识库(比如问答 qa)查询。
    当然你硬要这么搞也行,调整存到数据库的 a 的字段,尽量把信息搞的精简 比如类似 json 的那种格式 “商品名: acd, 价格: xxx, 生产公司: xxx,” 然后多余信息一点都不要给。
    我之前做过一个查询工作的也是上面类似的思路
    0x3933030
        4
    0x3933030  
       2024-05-16 17:06:44 +08:00   1
    又或者你的 a 和 b 的原始文本差距很小,可能只有几个字的话,试试 simhash
    dayeye2006199
        5
    dayeye2006199  
       2024-05-16 22:04:44 +08:00 via Android
    这个就是分类之后的实体抽取。前大模型时代就是各自标注数据,搞两个模型。

    大模型时代就是 prompt 工程,你仔细把规则写清楚,给把你放向量数据库里面的例子,直接 chatgpt 即可。
    Wo2uEAQ7HoEu7rls
        6
    Wo2uEAQ7HoEu7rls  
       2024-05-16 22:12:42 +08:00
    问题在于你的 embeding 模型不具备提取问题类型的能力,可以再次进行微调,训练集中让问题 a 与问题 b 得到的向量尽可能近,使模型在对问题编码的过程中更加注重问题类型的提取,而非商品类别
    Wo2uEAQ7HoEu7rls
        7
    Wo2uEAQ7HoEu7rls  
       2024-05-16 22:15:12 +08:00
    可以使用对比学习搞一下,样本 a 与样本 b 视作正样本,负样本可以生成一些,比如:“查询商品 ACD1231321 的价格”、“查询商品 ACD1231321 的颜色”。这两个问题得到的向量让它们远离
    Hamao
        8
    Hamao  
    OP
       2024-05-17 09:01:33 +08:00
    @dayeye2006199 哥你的想法和我昨晚思考的一模一样,从向量数据库里捞出最相似的五条,直接写一个 prompt 丢给 qwen (千问 max )让他帮忙分析+补全问题。
    Hamao
        9
    Hamao  
    OP
       2024-05-17 09:08:14 +08:00
    感谢大家啦,每条都感谢了
    其中 @Hellow0r1d ,您的这个其实是我想多了解一点的,但是如同个人背景所述:只会使用。平时时间比较有限,还要专注于其他的学习,导致我没时间去学习这一块的知识
    我这边的想法与
    @dayeye2006199 所述相似,因为我觉得这样能更好的减少投入(指 money ),专业的事情交给专业的人,我就可以专注于其他的开发了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     872 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 19:48 PVG 03:48 LAX 12:48 JFK 15:48
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86