2 个 exlcel 千万条手机号,怎么合并去重呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jry
V2EX    问与答

2 个 exlcel 千万条手机号,怎么合并去重呢?

  •  
  •   jry 2021-05-02 22:24:46 +08:00 2651 次点击
    这是一个创建于 1623 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 mysql 、es 、mongodb 、其它哪一种合适?

    15 条回复    2021-05-08 18:02:09 +08:00
    heyjei
        1
    heyjei  
       2021-05-02 22:32:36 +08:00
    linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows, 安装了 git bash,应该附带了这两个命令
    wellsc
        2
    wellsc  
       2021-05-02 22:36:14 +08:00 via iPhone   1
    一楼审题了吗
    koast
        3
    koast  
       2021-05-02 23:11:36 +08:00 via Android   1
    其实一楼没毛病啊,只要打开这两个 excel,文件,导出为 csv,然后 sort|uniq 就行了,无非就是多等一会的事情。几乎不需要考虑什么...
    inhd
        4
    inhd  
       2021-05-03 00:07:18 +08:00   6
    Baboonowen
        5
    Baboonowen  
       2021-05-03 00:22:53 +08:00 via Android
    Excel 自带去重。。一键去重。。
    dzdh
        6
    dzdh  
       2021-05-03 00:31:59 +08:00
    需要经常使用,找个数据库。
    就用一次,145 楼都可
    jr55475f112iz2tu
        7
    jr55475f112iz2tu  
       2021-05-03 00:38:18 +08:00
    我好奇这千万条手机号是哪里来的
    HankLu
        8
    HankLu  
       2021-05-03 00:43:54 +08:00
    @czfy 你懂得
    xupefei
        9
    xupefei  
       2021-05-03 01:17:22 +08:00 via iPhone   1
    Sort uniq 性能肯定不如直接去重啊。
    你这数据量随便写个脚本用 hashmap 跑一遍就行了,不需要数据库。
    renmu123
        10
    renmu123  
       2021-05-03 07:59:15 +08:00 via Android
    然后发现最大的问题是从 xlsx 读取这个千万条数据
    matrix67
        11
    matrix67  
       2021-05-03 09:01:52 +08:00
    @koast #3 对 一楼没毛病,二楼是要导出都写在步骤里


    @czfy #7 社工库?黑产警告!!
    8e47e42
        12
    8e47e42  
       2021-05-03 11:09:35 +08:00 via iPhone
    @xupefei sort | unique = O(n log n)
    Hash 最差可能是 O(n^2)最好可能是 O(n)
    sort 的内存占用远好于 hashmap
    因此不一定 hash 更优
    drawstar
        13
    drawstar  
       2021-05-04 07:17:11 +08:00
    @Baboonowen 千万条的 excel 估计打不开吧
    jry
        14
    jry  
    OP
       2021-05-04 20:27:54 +08:00
    还要得到新旧合并、新旧合并不含重复,重复,三分数据。
    BQsummer
        15
    BQsummer  
       2021-05-08 18:02:09 +08:00
    看标题我还以为是算法题呢,用 bitmap 处理[doge]
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2787 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 53ms UTC 13:18 PVG 21:18 LAX 06:18 JFK 09:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86