最近很火的一部香港电影,大陆禁了,但是有人传到网上,我下了一半就显示违规,有的链接点进去,视频名字都改过了,但是下载时候提示已经和谐。想知道他们是怎么在这么多视频里找到并且屏蔽的
![]() | 1 b821025551b 2016-04-05 21:47:14 +08:00 |
2 smallfount 2016-04-05 21:47:18 +08:00 ![]() hash 吧应该...... |
3 ambitiousxiao OP @b821025551b 问题是政治类的视频不像簧片那么简单啊 |
![]() | 4 huage 2016-04-05 21:50:22 +08:00 ![]() 文件的唯一性吧 |
5 hardware 2016-04-05 21:56:07 +08:00 深度网络做的鉴黄工具,然后每天会对贴吧和网盘进行扫描,然后记录相应的 hash |
![]() | 6 pimin 2016-04-05 21:57:49 +08:00 ![]() 热门资源比较好处理 比如 hash ,测试方法比较简单: 找一个明确被和谐的女教师.AVI ,通过其它渠道比如 BT 之类下载下来 然后在后面随便加点无意义的数据,改变 hash ,然后试着回传。 还有就是视频文件取几帧来比对。 比如爱情动作片开头都有 FBI WARNING ,隔多少秒取一帧。 时间 1 分钟内的。然后识别比对。 这个应该是放在他们主动挖掘期。防止变种文件和 hash 混淆。 还有就是件名和标签信息判定,这个是比较好处理的。 比如遇到 heyzo-xxx 的文件,全部判定为可疑文件,然后做筛选。 筛选出来之后提取样本,帧元素放到比对裤里, hash 放到黑名单里。 我觉得这样基本上可以杀差不多了。 |
![]() | 7 webdev 2016-04-05 22:01:30 +08:00 ![]() 文件 hash,也就费点 CPU 计算,是最快的方式 |
![]() | 8 yksoft1 2016-04-05 22:04:53 +08:00 ![]() Hash+文件名关键词+举报+人工审核 复合式屏蔽 |
![]() | 9 tadtung 2016-04-05 22:08:15 +08:00 ![]() 你仅仅修改视频名称是不够的。。。 都是根据文件 hash 的。。 如果是 bt 用百度离线的话,,你可以洗种子,,, 上传的话 修改视频文件上传。。 |
![]() | 10 strwei 2016-04-05 22:13:21 +08:00 大家都知道 hash 的,然后百度云的鉴黄师就不用那么辛苦了 |
![]() | 11 anotheruby 2016-04-05 22:14:43 +08:00 via iPhone 什么电影 |
![]() | 12 viator42 2016-04-05 22:15:46 +08:00 视频名字不是文件的真正名字,同样的文件所有人共享一个实体,把这一个和谐了所有人都看不了了 |
![]() | 13 pynix 2016-04-05 22:17:03 +08:00 。。。 |
![]() | 14 shiji 2016-04-05 22:58:34 +08:00 via Android 楼主有没有在 YouTube 上面看过蜡笔小新或者柯南? 你会发现某一些上传者会把视频嵌入到一个框里面,真正的视频像是画中画一样。 我猜想 YouTube 处理版权视频也会有一定的手段,他们这样嵌入视频能逃过检查,说明很有可能是逐帧取样 hash 。 取样的过程还要保证即使上传者换了格式,加了水印也能一样查出来。所以对于文件 hash 是最低级的。 对画面 hash 比较有效 |
15 n6DD1A640 2016-04-05 23:01:03 +08:00 @anotheruby 十年 |
![]() | 16 coolair 2016-04-05 23:10:25 +08:00 |
![]() | 17 ihuotui 2016-04-05 23:23:25 +08:00 视频算法,深度学习。 |
18 xmoiduts 2016-04-05 23:39:42 +08:00 via Android 猜测: hash ,视频抓帧,根据点击趋势标记,人工判断。 不知道加密压缩再分卷分布在多家网盘是否可行。 |
19 cfans1993 2016-04-05 23:42:07 +08:00 via Android 作为外行的看法 视频文件分音频通道+视频通道 音频特点:音色,音高等 视频特点:由图片组成, RGB 通道等 |
![]() | 20 hggg 2016-04-05 23:45:29 +08:00 传说中分析叫床声音解决色情问题是真的? |
21 cfans1993 2016-04-05 23:46:50 +08:00 via Android 另外不同文件有不同的文件头(二进制查看),改文件名算最简单的加密了,稍微高级点的可以改下文件头 |
![]() | 22 anotheruby 2016-04-06 03:57:19 +08:00 via iPhone |
![]() | 24 gimp 2016-04-06 08:04:59 +08:00 via Android 所以,你们不想看教育片就把视频打包加密上传嘛 |
25 hehe12dyo 2016-04-06 09:45:45 +08:00 @anotheruby 哥哥,看不了。。有种子嘛。给我一个, [email protected] |
26 SpicyCat 2016-04-06 10:40:47 +08:00 dd if=/dev/urandom of=112369-sp-2.mp4 ibs=1 count=8 obs=1 oflag=append cOnv=notrunc 一行命令在文件尾部加随机数据 |
27 ambitiousxiao OP @n6DD1A640 哈哈哈,是的 |
28 ambitiousxiao OP @coolair 我要试过 |
29 ambitiousxiao OP @anotheruby 十年 |
30 ambitiousxiao OP |
31 ambitiousxiao OP @gimp 以前传簧片,把名字改成学习资料都被删了, |
32 ambitiousxiao OP 有没有可能用了用了大数据?比如最近很火的那部十年,根据时间段截取,锁定缩小范围,然后在排查 |
33 ambitiousxiao OP @anotheruby 没了,哈哈 |
![]() | 34 anotheruby 2016-04-06 11:51:03 +08:00 via iPhone |
![]() | 35 lemmo 2016-04-06 12:28:41 +08:00 @anotheruby 是十年吗?几个月钱推特上有人介绍,就一直想看 |
![]() | 36 beneo 2016-04-06 12:30:40 +08:00 人工审核啊 |
![]() | 37 anotheruby 2016-04-06 13:52:04 +08:00 via iPhone @lemmo 嗯 |
![]() | 38 wzymmy 2016-04-06 16:32:32 +08:00 @lemmo 电影十.........................年 ed2k://|file|Ten.Years.2015.1080P.mp4|1945064624|C0A5B82BF806469FDBD7D2F97680EC5B|h=L25MCPC5AUWTM7VLKDQ2SLLBOF4TE7YL|/ 试试看 |
![]() | 39 armoni 2016-04-06 16:36:58 +08:00 图像识别技术,这个大型互联网公司都有,不是很难,实习生也能做 |
41 zcoder 2016-04-06 19:40:28 +08:00 抽取数据指纹。可以针对视频做专门的指纹计算,已经很成熟了。 |
42 zcoder 2016-04-06 19:42:44 +08:00 ![]() 鉴黄是通过机器学习,抽取关键帧,标注、抽取特征、训练模型、判定 |
![]() | 43 Eleutherios 2016-04-06 20:24:47 +08:00 via iPhone 我一直以为是拿深度网络模型对关键帧初判,输出一个 0-1 之间的 H 度,高的直接 Ban ,中的交给鉴黄师复查,低的 Pass ,复查结果再作为样本训练模型。 难道是我想多了? |
![]() | 44 velee 2016-04-06 20:30:49 +08:00 @anotheruby 我把分享的下载下来,大小是 1.8G 没错,不能播放! |
45 asd7160 2016-04-06 21:38:36 +08:00 你们不要作死啊。要分享那个电影也要用 mega 什么的。如果因为这事,导致度盘取消分享功能那对大家爱都没好处。君不见那么多网盘都取消分享了,唯有百度还在坚挺。 |
![]() | 46 anotheruby 2016-04-06 22:11:07 +08:00 via iPhone @velee 那就下载什么的 bt 吧 |
![]() | 47 zangbianxuegu 2016-04-07 00:00:51 +08:00 via iPhone @velee 可以啊 |
![]() | 48 gamexg 2016-04-07 08:10:26 +08:00 via Android hash 区分文件,文件名匹配关键字,如果一个文件文件名多次包含关键字就人工审核。 的却很多人会改成无关的文件名,但是阻止不了猪队友。 对关键帧 |
![]() | 49 gamexg 2016-04-07 08:12:25 +08:00 via Android 对关键帧进行图像识别计算量太大,感觉成本太高了。 |