咋搞?
1 Mithril 2020-03-26 11:33:31 +08:00 这文件传到前端确定不会撑爆用户浏览器? |
2 hechuanhua OP @Mithril 不知道,题目就是这样的,可以多种代码实现,但是我希望是 JS,不知道能不能解决 |
3 wednesdayco 2020-03-26 11:36:32 +08:00 老生常谈,先分片。再考虑找行的事情。 |
4 VDimos 2020-03-26 11:42:08 +08:00 via Android 算哈希呗 |
5 123444a 2020-03-26 11:51:33 +08:00 via Android ![]() bloom filter, 浏览器必备 |
![]() | 6 luckyrayyy 2020-03-26 11:57:40 +08:00 大流量查重请认准 bloom filter |
![]() | 7 asAnotherJack 2020-03-26 12:01:31 +08:00 先遍历每一行按哈希拆成一万份文件,再对每一个文件找出重复的,最后整合到一起? |
![]() | 8 robinlovemaggie 2020-03-26 12:02:53 +08:00 设计一款浏览器,自动实现文件实时逐行滚动读取,然后凭借一个强大的 AI 内核来完成记录分析,名字就叫:矩阵牌浏览器 |
![]() | 9 reus 2020-03-26 12:03:21 +08:00 for 循环不会写? |
![]() | 10 xingyuc 2020-03-26 12:56:11 +08:00 先搞定提出问题的人 |
11 whatsmyip 2020-03-26 12:58:04 +08:00 ![]() 分治,先哈希打散到文件,然后随便你怎么搞 |
12 dremy 2020-03-26 13:17:50 +08:00 via iPhone 纯 hash 费空间,1000w 的 int key 每个需要至少 3 个字节,一共 28MB,bloom filter 省大量空间,估计可以不到 100k |
![]() | 15 crella 2020-03-26 15:13:39 +08:00 via Android 逐行算出哈希值,按哈希值的前几个字母,分类并存到各个文件,然后各个文件内在继续比较。 |
![]() | 16 0bit 2020-03-26 15:48:54 +08:00 HyperLogLog |