用 mysql 、es 、mongodb 、其它哪一种合适?
![]() | 1 heyjei 2021-05-02 22:32:36 +08:00 linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows, 安装了 git bash,应该附带了这两个命令 |
![]() | 2 wellsc 2021-05-02 22:36:14 +08:00 via iPhone ![]() 一楼审题了吗 |
3 koast 2021-05-02 23:11:36 +08:00 via Android ![]() 其实一楼没毛病啊,只要打开这两个 excel,文件,导出为 csv,然后 sort|uniq 就行了,无非就是多等一会的事情。几乎不需要考虑什么... |
4 inhd 2021-05-03 00:07:18 +08:00 ![]() |
![]() | 5 Baboonowen 2021-05-03 00:22:53 +08:00 via Android Excel 自带去重。。一键去重。。 |
![]() | 6 dzdh 2021-05-03 00:31:59 +08:00 需要经常使用,找个数据库。 就用一次,145 楼都可 |
![]() | 7 jr55475f112iz2tu 2021-05-03 00:38:18 +08:00 我好奇这千万条手机号是哪里来的 |
![]() | 9 xupefei 2021-05-03 01:17:22 +08:00 via iPhone ![]() Sort uniq 性能肯定不如直接去重啊。 你这数据量随便写个脚本用 hashmap 跑一遍就行了,不需要数据库。 |
10 renmu123 2021-05-03 07:59:15 +08:00 via Android 然后发现最大的问题是从 xlsx 读取这个千万条数据 |
12 8e47e42 2021-05-03 11:09:35 +08:00 via iPhone |
![]() | 13 drawstar 2021-05-04 07:17:11 +08:00 @Baboonowen 千万条的 excel 估计打不开吧 |
![]() | 14 jry OP 还要得到新旧合并、新旧合并不含重复,重复,三分数据。 |
![]() | 15 BQsummer 2021-05-08 18:02:09 +08:00 看标题我还以为是算法题呢,用 bitmap 处理[doge] |