![]() | 1 F281M6Dh8DXpD1g2 2024-05-23 15:56:14 +08:00 ![]() rag 了解一下 |
![]() | 2 TimePPT PRO ![]() 你这需求如果就举例的那么简单,都不需要大模型,语义向量检索就能满足。 就是楼上的 RAG 的一部分。 |
![]() | 3 NickHopps 2024-05-23 16:50:54 +08:00 直接调用 openai 的 api 就可以实现,可以参考这篇文章 https://simonwillison.net/2023/Oct/23/embeddings/ |
![]() | 4 mogita 2024-05-23 16:55:13 +08:00 大致步骤: 1. 把 csv 分成 chunk ,一行一个 chunk 或 n 行一个 chunk 看行的长度定夺 2. 逐个 chunk 调 embedding API 换回一个 embedding 结果,存进 vector db 3. 用关键词「蔬菜」检索 vector db 借楼提一个引申问题:有不需要经过 embedding API 的办法吗? |
![]() | 5 cando 2024-05-23 17:28:28 +08:00 输入"蔬菜",让 GPT 给出所有的蔬菜,然后把所有的蔬菜拿到 csv 去匹配。 |
![]() | 6 TimePPT PRO ![]() |
![]() | 8 DTCPSS OP 基本解决了。 向量搜索用 Faiss 。 文本向量化用 aspire/acge_text_embedding 和 Alibaba-NLP/gte-Qwen1.5-7B-instruct 。 |
9 TongLiaoKing 2024-09-02 16:29:23 +08:00 Bert 得到句向量 Embedding 再 L2 归一化 然后矩阵乘法计算两两之间按相似度 |