如何在 30 万个句子中找出特定主题的句子？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 509 天前的主题，其中的信息可能已经有所发展或是发生改变。

我有一个 csv 文件，里面有 30 万个句子。
有没有什么现成的产品，可以做到：我输入 “蔬菜”，它帮我从 csv 文件中找到 “你的番茄是哪里买的？” 之类的和蔬菜相关的句子？
只是自己用，不是对外提供服务。最好开箱即用，越便宜越好。
ChatGPT 提示文件过大。QAnything 的回答完全没法用。

句子

蔬菜

产品

9 条回复 2024-09-02 16:29:23 +08:00

F281M6Dh8DXpD1g2

2024-05-23 15:56:14 +08:00

rag 了解一下

TimePPT

PRO

2024-05-23 16:03:23 +08:00

你这需求如果就举例的那么简单，都不需要大模型，语义向量检索就能满足。
就是楼上的 RAG 的一部分。

NickHopps

2024-05-23 16:50:54 +08:00

直接调用 openai 的 api 就可以实现，可以参考这篇文章 https://simonwillison.net/2023/Oct/23/embeddings/

mogita

2024-05-23 16:55:13 +08:00

大致步骤：

1. 把 csv 分成 chunk ，一行一个 chunk 或 n 行一个 chunk 看行的长度定夺
2. 逐个 chunk 调 embedding API 换回一个 embedding 结果，存进 vector db
3. 用关键词「蔬菜」检索 vector db

借楼提一个引申问题：有不需要经过 embedding API 的办法吗？

cando

2024-05-23 17:28:28 +08:00

输入"蔬菜"，让 GPT 给出所有的蔬菜，然后把所有的蔬菜拿到 csv 去匹配。

TimePPT

PRO

2024-05-23 17:37:03 +08:00

@ck65 Embedding 背后就是个模型，自己私有化部署一个也行。
还有个办法是做 NER 实体识别，读取离线训练好的 Word Embedding 表，做相似度匹配。
但这仅限于词级别的匹配

DTCPSS

2024-05-24 09:01:50 +08:00

@liprais @TimePPT
有没有推荐的组件？ Faiss 怎么样？

DTCPSS

2024-05-24 10:31:56 +08:00

基本解决了。
向量搜索用 Faiss 。
文本向量化用 aspire/acge_text_embedding 和 Alibaba-NLP/gte-Qwen1.5-7B-instruct 。

TongLiaoKing

2024-09-02 16:29:23 +08:00

Bert 得到句向量 Embedding 再 L2 归一化
然后矩阵乘法计算两两之间按相似度