![]() | 1 Livid MOD PRO ![]() 如果对方还考虑 SEO 的话,把 UA 伪装成百度看看能不能拿到不同的输出。 |
2 raincious 2014-01-27 10:42:40 +08:00 ![]() 截图OCR转换。 |
![]() | 3 jjplay 2014-01-27 11:09:10 +08:00 国人都是人才... |
![]() | 4 Evance 2014-01-27 11:17:38 +08:00 如果生成的算法在后端,那么通过字符串处理的办法,很大情况情况无解,通过 @raincious 所说的办法比较有效。 如果算法在前端,找到生成脚本修改处理的算法函数即可。 |
![]() | 5 hq5261984 2014-01-27 11:25:22 +08:00 ![]() chrome浏览器 粘帖为纯文本。 然后自己再排版。 |
![]() | 6 bengtuo 2014-01-27 11:27:06 +08:00 只要能看到正确的内容 便是可以破的 |
![]() | 7 FrankFang128 2014-01-27 11:27:18 +08:00 好办法。 对付copy者很管用。 |
![]() | 8 FrankFang128 2014-01-27 11:28:14 +08:00 @bengtuo 中文OCR识别度太烂,所以楼主说的这种暂时无解,我觉得。 |
![]() | 9 Mutoo 2014-01-27 11:36:15 +08:00 ![]() 其实也不是没办法,可以把每个字的位置信息提取出来,然后做一个二维链表把它们重新排序。就像古代印刷术那样,最后得到文字内容。 提取位置的方法有很多,这里我弄了个示例 http://jsfiddle.net/mutoo/w5KJz/ |
![]() | 10 casparchen 2014-01-27 11:40:04 +08:00 via iPad 他怎么处理的,你就逆处理呗。比如他是按原文本行列号生成表格坐标,那只需将坐标转换成行列号再拼凑字符串即可 |
![]() | 11 icedx 2014-01-27 12:14:37 +08:00 via Android @FrankFang128 没有识别不出来的文字 只有识别不出文字的软件 |
![]() | 12 jinwyp 2014-01-27 12:21:23 +08:00 我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制 |
13 yangff 2014-01-27 12:23:19 +08:00 @jinwyp 前端绘制都可以做,大不了自己编译个chrome把freetype的接口暴露出来,直接服务端下发图片就行了,只能ORC。 |
![]() | 14 x86 2014-01-27 12:25:17 +08:00 贴个地址出来 |
15 raincious 2014-01-27 12:26:22 +08:00 @FrankFang128 False。就算建立自己的字图索引,网页截图那么高精度的采样,识别这个,没有任何问题。 |
![]() | 16 zxp OP 关键是上面只是这个网站页面的一种情况,最纠结的就是表格还有嵌套,所以要写个机器人来自动抓内容面临的困难太大了,网站内容的自动生成的算法也很让人困扰,最后只能怀疑网站是全人工手动制作的,只能佩服站长为了防复制的巨大毅力了。。。 |
![]() | 19 zxp OP 内容生成的算法其实之前也想过一些,比较靠谱的是先生成表格的布局,对每个格子进行编号,然后对格子排序,把文字内容按顺序填写进去,相对抓取的难度应该要小一些。 |
![]() | 21 xiaket 2014-01-27 12:45:02 +08:00 ![]() @zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来. 如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等... |
![]() | 22 shakoon 2014-01-27 12:46:21 +08:00 赞,这招原创文学网站可以借鉴 |
![]() | 23 FrankFang128 2014-01-27 12:57:10 +08:00 ![]() @shakoon 嗯,我也觉得,简单的随机切割,使得破解难度大大增加。看看上面说的几个解决方案,没有编程基础的人员搞不定的。所以可以防止一大片想要 copy 的人。 |
![]() | 24 davidyin 2014-01-27 15:50:41 +08:00 复制的时候不是连表格一起复制的么? 粘帖的时候也连表格一起就好了。 |
![]() | 25 d0a1ccec 2014-01-27 16:36:37 +08:00 来个url吧 ,楼主 |
26 anheiyouxia 2014-01-27 17:40:19 +08:00 我记得N年以前似乎也遇到过这样的网站 |
![]() | 27 9hills 2014-01-27 17:40:30 +08:00 @FrankFang128 网页截图这么清晰,中文OCR识别率很高的。 |
![]() | 28 icyalala 2014-01-27 17:44:15 +08:00 ![]() 只要人能认出来,就防止不了人肉复制啊。。 你看起点中文之类的网站比这还要丧心病狂,换字体,渲染成图片,那些盗版小说站点照样能弄出来。。靠的就是“手打”。。 在中国,人力成本非常低。。。 |
![]() | 29 xunyu 2014-01-27 17:46:57 +08:00 对啊,ocr啊,在去噪下就解决了 |
![]() | 30 zxp OP |
31 yangzh 2014-01-27 22:20:48 +08:00 @FrankFang128 中文 ocr 是手写不能识别。这种“机器”的“端正”字体的话对于 ocr 程序还是没压力的。 |
![]() | 32 84840 2014-01-27 23:44:35 +08:00 先查源代码研究下这个网站是如何实现这种排版的,没有破解不了的网站。 时间。。。,这时候我想起了《卡徒》 |