大数据量下数据判重，有什么好的方法？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1313 天前的主题，其中的信息可能已经有所发展或是发生改变。

几十亿数据，提交一条数据，判断字段内容是否重复。直接加索引，怕几十亿数据撑不住。

数据

索引

大数据

重复

15 条回复 2022-03-10 15:10:38 +08:00

ericls

2022-03-08 23:43:40 +08:00 via iPhone

benchmark 了吗？

BrettD

2022-03-08 23:46:01 +08:00

bloom filter

kera0a

2022-03-08 23:47:19 +08:00 via iPhone

布隆过滤器，但会有一点点误判率。
误判率越小占用内存越大，速度非常快 O(1)

wellsc

2022-03-08 23:48:27 +08:00

文本段？分词+倒排索引

leebs

2022-03-09 00:11:02 +08:00

@kera0a 布隆的空间占用情况呢，几十亿数据不会内存都放不下了吧。

levelworm

2022-03-09 00:16:55 +08:00 via Android

不用全部对比吧，如果是分布式的话。更怕的是技术上不重但是业务上重。

levelworm

2022-03-09 00:39:12 +08:00 via Android

对了，op 用的是什么数据库呐？

LeeReamond

2022-03-09 07:07:28 +08:00

@kera0a 布隆过滤器一个问题是无法应对动态数据，实际业务里比如原先拦截 1 ，2 ，3 ，结果第二天业务上 2 从列表里删除了，布隆过滤器就比较吃瘪了

murmur

2022-03-09 08:16:13 +08:00

几十亿数据有分表或者分库么

leebs

2022-03-09 09:14:11 +08:00

@levelworm mongodb

shawndev

2022-03-09 10:22:34 +08:00

Cuckoo Filter?

ElmerZhang

2022-03-09 10:45:30 +08:00

分表+唯一索引

ElmerZhang

2022-03-09 10:49:06 +08:00

当前表不好拆的话，就专门为这个索引建个新表，给这个表分表+唯一索引。
写数据的时候用事务，两个表一起写。
另外，你只是担心抗不住，到底抗不抗得住还是要看压测，说不定就抗得住了呢。不过这么大的表改索引也得费点劲。

kera0a

2022-03-09 10:50:24 +08:00

@leebs 空间复杂度根据误判率来计算的
50 亿数据，误判率 0.001 大概需要 8G 内存

ghoul5426

2022-03-10 15:10:38 +08:00

居然没人说哈希，为每个数据计算一个哈希值，crc32 （ 32 位）、md5 （ 128 位）、sha1 （ 160 位）、sha256 （ 256 位）等都可以，可以把哈希值做主键或者唯一索引，可以用这个值来做分库分表的依据。