针对视频文件重去有哪些方案? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kenshinhu
0.01D
V2EX    问与答

针对视频文件重去有哪些方案?

  •  
  •   kenshinhu 2015-10-15 11:19:55 +08:00 5382 次点击
    这是一个创建于 3653 天前的主题,其中的信息可能已经有所发展或是发生改变。

    针对视频文件重去有哪些方案?

    造福人类的事情的问题来了
    大家没有有苦恼于日渐增多的视频文件,怎样可以有一个有效的方法查找出相同的视频文件?
    MD5?
    还是通过人肉?

    说说你们的想法

    第 1 条附言    2015-10-15 13:10:36 +08:00
    注意是内容去重.
    文件名去重方案略过
    19 条回复    2024-10-12 22:51:07 +08:00
    MicrosoftAzure
        1
    MicrosoftAzure  
       2015-10-15 11:51:26 +08:00
    Everything 用通配符搜索视频文件后根据文件大小排序并手动删除重复项。
    imn1
        3
    imn1  
       2015-10-15 12:12:33 +08:00
    严谨: hash
    极简:字节
    一般:字节+mediainfo
    折中:字节+mediainfo+随机抽取相同位置的字节片段进行 hash
    huijiewei
        4
    huijiewei  
       2015-10-15 12:14:19 +08:00
    第一步先用 MD5 去除完全重复的文件, MD5 对文件的识别还是很保险的

    第二步就可以用高大上的智能识别了。对准确率不放心的话,可以人工审核一下
    my101du
        5
    my101du  
       2015-10-15 12:16:06 +08:00   1
    同需要。

    例如 番号-号码-1080.mkv 和 [一堆日语].rmbp 可能是相同内容的视频文件(或者是截取的部分相同)

    用大小、名称都是查不出来的……

    我觉得最佳的解决办法是大家约定固定使用一组压缩参数,使得同一个文件压缩出来,体积都是一样的,可以通过体积来判断。还有就是截取的话,文件名要把原来的视频名保留……

    是不是要求太高了
    csx163
        6
    csx163  
       2015-10-15 12:28:09 +08:00
    体积都是 5M 左右, webm 格式的怎么破
    abelyao
        7
    abelyao  
       2015-10-15 12:37:52 +08:00 via iPhone
    @imn1
    @huijiewei
    感觉用 hash 是不准确的,字节也一样,就像 @my101du 说的同一部片有不同的压缩版本…
    感觉应该是抽取几个时间点的截图,然后缩小到一定程度之后对比相似度(类似识别相同图片的原理)整个视频匹配下来相似度达到多少以上就算同一部视频…
    不过有一些发布者会在片头加广告,导致时间点对不上… 无奈…
    imn1
        8
    imn1  
       2015-10-15 13:02:51 +08:00
    @abelyao
    呃,这个我只理解了文件去重,没理解为内容去重,至少 LZ 没说清

    内容去重这个真没“智能”办法,即使截图,也很难
    例如一个版本前面带有几秒版权,另一个没有,两者就会存在时间差
    又如一个版本上了滤镜 A ,另一个用了滤镜 B ,两者即使时间同步,截图的差异也巨大

    我没什么这个问题,因为
    1.事前有版本选择,不清楚版本的忽略,避免浪费时间,除非稀有视频
    2.时候有归档习惯,所以归档时基本也人肉去重了,因为无论 hash 或者图片比较,花费时间和 CPU 还不如我快进一遍简单

    非个人使用,例如服务器,那就是另话
    但这个又有另一个逻辑:不同版本就是不同劳动(或不同权利持有人),能随意清理吗?
    imn1
        9
    imn1  
       2015-10-15 13:05:02 +08:00
    @imn1
    鉴于另一个帖子的争论,避免别人认为我态度有问题
    楼上 “ 2.时候……” 应为 “ 2.事后……”
    kenshinhu     10
    kenshinhu  
    OP
       2015-10-15 13:08:32 +08:00
    @huijiewei 尝试过 md5 方式,但针对 web video 时候这个就不管用了
    kenshinhu
        11
    kenshinhu  
    OP
       2015-10-15 13:09:36 +08:00
    @my101du 番号这个标准仅对靠谱的文件名有用....
    kenshinhu
        12
    kenshinhu  
    OP
       2015-10-15 13:11:13 +08:00
    @imn1 这个针对家用环境吧
    eirk2004
        13
    eirk2004  
       2015-10-15 21:14:16 +08:00
    这样行不行? FFmpeg 抽取关键帧,然后把图像扔给 google 、 baidu 去提取关键词(并对关键词排序),供用户最终判定;如果完全无法匹配,尝试从关键帧中进行人脸识别,然后截取画面、重复前面一步。

    精确的文件内容去重,感觉应用范围窄、实现成本高
    kenshinhu
        14
    kenshinhu  
    OP
       2015-10-16 10:05:12 +08:00
    @eirk2004 这可能是其中之一个方案,貌似这个方案有在腾信的监黄里用到
    cz5424
        15
    cz5424  
       2018-09-29 16:05:49 +08:00
    楼主采用了什么方案了?

    FFmpeg 抽取关键帧好像是一个比较好的方法
    提取多个关键帧,视频去重就降级到了图片去重,使用图片去重的方法就可以搞了

    目前我也在找更好的方案
    jiqiren007
        16
    jiqiren007  
       2019-10-24 13:44:20 +08:00
    @cz5424 找到啥更好的方案了吗?
    cz5424
        17
    cz5424  
       2019-10-24 16:27:21 +08:00 via iPhone
    @jiqiren007 没有继续跟下去了,目前问题不是很搭
    wktop
        18
    wktop  
       2024-04-02 15:21:47 +08:00
    @jiqiren007 有继续跟进吗?
    ccxuy
        19
    ccxuy  
       2024-10-12 22:51:07 +08:00
    2024 年了, 有些网站已经能截图搜索视频了, 但是家用方案或者开源方案还是没有
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     921 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 20:07 PVG 04:07 LAX 13:07 JFK 16:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86