几个 T 的文件查重怎么搞,有哪些软件快 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hanyaguang
V2EX    问与答

几个 T 的文件查重怎么搞,有哪些软件快

  •  
  •   hanyaguang 2021-02-11 10:58:40 +08:00 3148 次点击
    这是一个创建于 1706 天前的主题,其中的信息可能已经有所发展或是发生改变。
    兄弟们,你们用什么
    14 条回复    2021-02-12 22:32:39 +08:00
    aec4d
        1
    aec4d  
       2021-02-11 11:34:24 +08:00 via iPhone
    完全可以自己写,先得到哪些文件大小一样,将大小一样的文件计算 hash 第一步就排除大多数文件了
    redtea
        2
    redtea  
       2021-02-11 11:36:44 +08:00
    dupeGuru
    lianyue
        3
    lianyue  
       2021-02-11 11:54:34 +08:00 via iPhone   4
    先文件大小 然后 文件前 128k 的 md5 然后 文件尾 128k md5 然后文件中间 128k md5 基本上就 ok 了 最后有一个严格模式 前面都匹配了 就 文件全局 md5
    Osk
        4
    Osk  
       2021-02-11 12:01:59 +08:00 via Android
    要不,用文件系统的去重功能 ,除了有点吃内存。。。
    glasswm
        5
    glasswm  
       2021-02-11 12:11:23 +08:00 via Android
    delectate
        6
    delectate  
       2021-02-11 12:13:47 +08:00
    先看大小,大小一致再比较随机位置的随机长度的 md5 就可以了。
    imn1
        7
    imn1  
       2021-02-11 12:49:45 +08:00
    文件查重还是文字查重?什么平台?
    文件几个 T 不是什么事,如果是经常要的,建议用带数据库的工具,hash 过一次的保留,下次不用重新 hash
    文字的话,楼下回答,或者搜搜
    Overfill3641
        8
    Overfill3641  
       2021-02-11 12:51:03 +08:00 via iPhone   2
    检验快的算法又不是没有,天天 MD5
    wangxiaoaer
        9
    wangxiaoaer  
       2021-02-11 12:55:17 +08:00 via iPhone
    应该是文字内容查重,那些先拿文件大小判断的都可以退下了。

    我 i 有个思路,先所有文件建立索引,然后按照文件的每一段作为关键字去搜,根据匹配度判断。

    如果文件是专业性很强的,建索引的词库可能要定制。
    wangxiaoaer
        10
    wangxiaoaer  
       2021-02-11 12:56:11 +08:00 via iPhone
    @wangxiaoaer 当然,我 i 没干过,说的这个笨办法不知道可行性。
    cheng6563
        11
    cheng6563  
       2021-02-11 12:59:29 +08:00 via Android
    crc 就行了不用 md5
    jim9606
        12
    jim9606  
       2021-02-11 15:19:45 +08:00
    如果可以换文件系统,直接换 ZFS 或者 BtrFS,适合应对会不断新增数据的环境。
    基于 hash 的软件有很多我就不列举了,就是没法在线去重。
    microka
        13
    microka  
       2021-02-11 15:21:57 +08:00
    几个 T 的文件是指几个 T 的单文件?还是总容量达几个 T 的若干多个小文件?
    hanyaguang
        14
    hanyaguang  
    OP
       2021-02-12 22:32:39 +08:00
    谢谢兄弟们
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4845 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 04:01 PVG 12:01 LAX 21:01 JFK 00:01
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86