作为外行想知道百度云是通过什么原理屏蔽和谐上面的视频的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ambitiousxiao
V2EX    问与答

作为外行想知道百度云是通过什么原理屏蔽和谐上面的视频的?

  •  
  •   ambitiousxiao 2016-04-05 21:43:59 +08:00 32734 次点击
    这是一个创建于 3477 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近很火的一部香港电影,大陆禁了,但是有人传到网上,我下了一半就显示违规,有的链接点进去,视频名字都改过了,但是下载时候提示已经和谐。想知道他们是怎么在这么多视频里找到并且屏蔽的

    49 条回复    2016-04-07 08:12:25 +08:00
    b821025551b
        1
    b821025551b  
       2016-04-05 21:47:14 +08:00
    smallfount
        2
    smallfount  
       2016-04-05 21:47:18 +08:00   1
    hash 吧应该......
    ambitiousxiao
        3
    ambitiousxiao  
    OP
       2016-04-05 21:48:40 +08:00
    @b821025551b 问题是政治类的视频不像簧片那么简单啊
    huage
        4
    huage  
       2016-04-05 21:50:22 +08:00   1
    文件的唯一性吧
    hardware
        5
    hardware  
       2016-04-05 21:56:07 +08:00
    深度网络做的鉴黄工具,然后每天会对贴吧和网盘进行扫描,然后记录相应的 hash
    pimin
        6
    pimin  
       2016-04-05 21:57:49 +08:00   2
    热门资源比较好处理
    比如 hash ,测试方法比较简单:
    找一个明确被和谐的女教师.AVI ,通过其它渠道比如 BT 之类下载下来
    然后在后面随便加点无意义的数据,改变 hash ,然后试着回传。
    还有就是视频文件取几帧来比对。
    比如爱情动作片开头都有 FBI WARNING ,隔多少秒取一帧。
    时间 1 分钟内的。然后识别比对。
    这个应该是放在他们主动挖掘期。防止变种文件和 hash 混淆。

    还有就是件名和标签信息判定,这个是比较好处理的。
    比如遇到 heyzo-xxx 的文件,全部判定为可疑文件,然后做筛选。
    筛选出来之后提取样本,帧元素放到比对裤里, hash 放到黑名单里。

    我觉得这样基本上可以杀差不多了。
    webdev
        7
    webdev  
       2016-04-05 22:01:30 +08:00   1
    文件 hash,也就费点 CPU 计算,是最快的方式
    yksoft1
        8
    yksoft1  
       2016-04-05 22:04:53 +08:00   1
    Hash+文件名关键词+举报+人工审核
    复合式屏蔽
    tadtung
        9
    tadtung  
       2016-04-05 22:08:15 +08:00   1
    你仅仅修改视频名称是不够的。。。
    都是根据文件 hash 的。。
    如果是 bt 用百度离线的话,,你可以洗种子,,,
    上传的话 修改视频文件上传。。
    strwei
        10
    strwei  
       2016-04-05 22:13:21 +08:00
    大家都知道 hash 的,然后百度云的鉴黄师就不用那么辛苦了
    anotheruby
        11
    anotheruby  
       2016-04-05 22:14:43 +08:00 via iPhone
    什么电影
    viator42
        12
    viator42  
       2016-04-05 22:15:46 +08:00
    视频名字不是文件的真正名字,同样的文件所有人共享一个实体,把这一个和谐了所有人都看不了了
    pynix
        13
    pynix  
       2016-04-05 22:17:03 +08:00
    。。。
    shiji
        14
    shiji  
       2016-04-05 22:58:34 +08:00 via Android
    楼主有没有在 YouTube 上面看过蜡笔小新或者柯南? 你会发现某一些上传者会把视频嵌入到一个框里面,真正的视频像是画中画一样。 我猜想 YouTube 处理版权视频也会有一定的手段,他们这样嵌入视频能逃过检查,说明很有可能是逐帧取样 hash 。 取样的过程还要保证即使上传者换了格式,加了水印也能一样查出来。所以对于文件 hash 是最低级的。 对画面 hash 比较有效
    n6DD1A640
        15
    n6DD1A640  
       2016-04-05 23:01:03 +08:00
    @anotheruby 十年
    coolair
        16
    coolair  
       2016-04-05 23:10:25 +08:00
    @b821025551b 这个不准吧,我测了几张都正常……

    码是后面加的……
    ihuotui
        17
    ihuotui  
       2016-04-05 23:23:25 +08:00
    视频算法,深度学习。
    xmoiduts
        18
    xmoiduts  
       2016-04-05 23:39:42 +08:00 via Android
    猜测: hash ,视频抓帧,根据点击趋势标记,人工判断。

    不知道加密压缩再分卷分布在多家网盘是否可行。
    cfans1993
        19
    cfans1993  
       2016-04-05 23:42:07 +08:00 via Android
    作为外行的看法
    视频文件分音频通道+视频通道
    音频特点:音色,音高等
    视频特点:由图片组成, RGB 通道等
    hggg
        20
    hggg  
       2016-04-05 23:45:29 +08:00
    传说中分析叫床声音解决色情问题是真的?
    cfans1993
        21
    cfans1993  
       2016-04-05 23:46:50 +08:00 via Android
    另外不同文件有不同的文件头(二进制查看),改文件名算最简单的加密了,稍微高级点的可以改下文件头
    anotheruby
        22
    anotheruby  
       2016-04-06 03:57:19 +08:00 via iPhone
    msg7086
        23
    msg7086  
       2016-04-06 05:21:49 +08:00
    @shiji 甚至还有左右翻转后上传的……
    gimp
        24
    gimp  
       2016-04-06 08:04:59 +08:00 via Android
    所以,你们不想看教育片就把视频打包加密上传嘛
    hehe12dyo
        25
    hehe12dyo  
       2016-04-06 09:45:45 +08:00
    @anotheruby 哥哥,看不了。。有种子嘛。给我一个, [email protected]
    SpicyCat
        26
    SpicyCat  
       2016-04-06 10:40:47 +08:00
    dd if=/dev/urandom of=112369-sp-2.mp4 ibs=1 count=8 obs=1 oflag=append cOnv=notrunc

    一行命令在文件尾部加随机数据
    ambitiousxiao
        27
    ambitiousxiao  
    OP
       2016-04-06 10:55:41 +08:00
    @n6DD1A640 哈哈哈,是的
    ambitiousxiao
        28
    ambitiousxiao  
    OP
       2016-04-06 10:55:52 +08:00
    @coolair 我要试过
    ambitiousxiao
        29
    ambitiousxiao  
    OP
       2016-04-06 10:56:32 +08:00
    @anotheruby 十年
    ambitiousxiao
        30
    ambitiousxiao  
    OP
       2016-04-06 10:57:17 +08:00
    @shiji
    @SpicyCat 谢谢
    ambitiousxiao
        31
    ambitiousxiao  
    OP
       2016-04-06 10:57:49 +08:00
    @gimp 以前传簧片,把名字改成学习资料都被删了,
    ambitiousxiao
        32
    ambitiousxiao  
    OP
       2016-04-06 11:00:06 +08:00
    有没有可能用了用了大数据?比如最近很火的那部十年,根据时间段截取,锁定缩小范围,然后在排查
    ambitiousxiao
        33
    ambitiousxiao  
    OP
       2016-04-06 11:01:09 +08:00
    @anotheruby 没了,哈哈
    anotheruby
        34
    anotheruby  
       2016-04-06 11:51:03 +08:00 via iPhone
    @hehe12dyo
    @ambitiousxiao twi search ** u2b
    lemmo
        35
    lemmo  
       2016-04-06 12:28:41 +08:00
    @anotheruby 是十年吗?几个月钱推特上有人介绍,就一直想看
    beneo
        36
    beneo  
       2016-04-06 12:30:40 +08:00
    人工审核啊
    anotheruby
        37
    anotheruby  
       2016-04-06 13:52:04 +08:00 via iPhone
    @lemmo
    wzymmy
        38
    wzymmy  
       2016-04-06 16:32:32 +08:00
    @lemmo 电影十.........................年
    ed2k://|file|Ten.Years.2015.1080P.mp4|1945064624|C0A5B82BF806469FDBD7D2F97680EC5B|h=L25MCPC5AUWTM7VLKDQ2SLLBOF4TE7YL|/

    试试看
    armoni
        39
    armoni  
       2016-04-06 16:36:58 +08:00
    图像识别技术,这个大型互联网公司都有,不是很难,实习生也能做
    kechx
        40
    kechx  
       2016-04-06 18:34:57 +08:00
    @wzymmy 亲测可行,晚上回去看看
    zcoder
        41
    zcoder  
       2016-04-06 19:40:28 +08:00
    抽取数据指纹。可以针对视频做专门的指纹计算,已经很成熟了。
    zcoder
        42
    zcoder  
       2016-04-06 19:42:44 +08:00   1
    鉴黄是通过机器学习,抽取关键帧,标注、抽取特征、训练模型、判定
    Eleutherios
        43
    Eleutherios  
       2016-04-06 20:24:47 +08:00 via iPhone
    我一直以为是拿深度网络模型对关键帧初判,输出一个 0-1 之间的 H 度,高的直接 Ban ,中的交给鉴黄师复查,低的 Pass ,复查结果再作为样本训练模型。

    难道是我想多了?
    velee
        44
    velee  
       2016-04-06 20:30:49 +08:00
    @anotheruby 我把分享的下载下来,大小是 1.8G 没错,不能播放!
    asd7160
        45
    asd7160  
       2016-04-06 21:38:36 +08:00
    你们不要作死啊。要分享那个电影也要用 mega 什么的。如果因为这事,导致度盘取消分享功能那对大家爱都没好处。君不见那么多网盘都取消分享了,唯有百度还在坚挺。
    anotheruby
        46
    anotheruby  
       2016-04-06 22:11:07 +08:00 via iPhone
    @velee 那就下载什么的 bt 吧
    zangbianxuegu
        47
    zangbianxuegu  
       2016-04-07 00:00:51 +08:00 via iPhone
    @velee 可以啊
    gamexg
        48
    gamexg  
       2016-04-07 08:10:26 +08:00 via Android
    hash 区分文件,文件名匹配关键字,如果一个文件文件名多次包含关键字就人工审核。
    的却很多人会改成无关的文件名,但是阻止不了猪队友。


    对关键帧
    gamexg
        49
    gamexg  
       2016-04-07 08:12:25 +08:00 via Android
    对关键帧进行图像识别计算量太大,感觉成本太高了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2801 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 00:27 PVG 08:27 LAX 17:27 JFK 20:27
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86