
1 Livid MOD PRO 如果对方还考虑 SEO 的话,把 UA 伪装成百度看看能不能拿到不同的输出。 |
2 raincious 2014 年 1 月 27 日 截图OCR转换。 |
3 jjplay 2014 年 1 月 27 日 国人都是人才... |
4 Evance 2014 年 1 月 27 日 如果生成的算法在后端,那么通过字符串处理的办法,很大情况情况无解,通过 @raincious 所说的办法比较有效。 如果算法在前端,找到生成脚本修改处理的算法函数即可。 |
5 hq5261984 2014 年 1 月 27 日 chrome浏览器 粘帖为纯文本。 然后自己再排版。 |
6 bengtuo 2014 年 1 月 27 日 只要能看到正确的内容 便是可以破的 |
7 好办法。 对付copy者很管用。 |
8 FrankFang128 2014 年 1 月 27 日 @bengtuo 中文OCR识别度太烂,所以楼主说的这种暂时无解,我觉得。 |
9 Mutoo 2014 年 1 月 27 日 其实也不是没办法,可以把每个字的位置信息提取出来,然后做一个二维链表把它们重新排序。就像古代印刷术那样,最后得到文字内容。 提取位置的方法有很多,这里我弄了个示例 http://jsfiddle.net/mutoo/w5KJz/ |
10 casparchen 2014 年 1 月 27 日 via iPad 他怎么处理的,你就逆处理呗。比如他是按原文本行列号生成表格坐标,那只需将坐标转换成行列号再拼凑字符串即可 |
11 icedx 2014 年 1 月 27 日 via Android @FrankFang128 没有识别不出来的文字 只有识别不出文字的软件 |
12 jinwyp 2014 年 1 月 27 日 我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制 |
14 x86 2014 年 1 月 27 日 贴个地址出来 |
15 raincious 2014 年 1 月 27 日 @FrankFang128 False。就算建立自己的字图索引,网页截图那么高精度的采样,识别这个,没有任何问题。 |
16 zxp OP 关键是上面只是这个网站页面的一种情况,最纠结的就是表格还有嵌套,所以要写个机器人来自动抓内容面临的困难太大了,网站内容的自动生成的算法也很让人困扰,最后只能怀疑网站是全人工手动制作的,只能佩服站长为了防复制的巨大毅力了。。。 |
19 zxp OP 内容生成的算法其实之前也想过一些,比较靠谱的是先生成表格的布局,对每个格子进行编号,然后对格子排序,把文字内容按顺序填写进去,相对抓取的难度应该要小一些。 |
21 xiaket 2014 年 1 月 27 日 @zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来. 如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等... |
22 shakoon 2014 年 1 月 27 日 赞,这招原创文学网站可以借鉴 |
23 FrankFang128 2014 年 1 月 27 日 @shakoon 嗯,我也觉得,简单的随机切割,使得破解难度大大增加。看看上面说的几个解决方案,没有编程基础的人员搞不定的。所以可以防止一大片想要 copy 的人。 |
24 davidyin 2014 年 1 月 27 日 复制的时候不是连表格一起复制的么? 粘帖的时候也连表格一起就好了。 |
25 d0a1ccec 2014 年 1 月 27 日 来个url吧 ,楼主 |
26 anheiyouxia 2014 年 1 月 27 日 我记得N年以前似乎也遇到过这样的网站 |
27 9hills 2014 年 1 月 27 日 @FrankFang128 网页截图这么清晰,中文OCR识别率很高的。 |
28 icyalala 2014 年 1 月 27 日 只要人能认出来,就防止不了人肉复制啊。。 你看起点中文之类的网站比这还要丧心病狂,换字体,渲染成图片,那些盗版小说站点照样能弄出来。。靠的就是“手打”。。 在中国,人力成本非常低。。。 |
29 xunyu 2014 年 1 月 27 日 对啊,ocr啊,在去噪下就解决了 |
30 zxp OP |
31 yangzh 2014 年 1 月 27 日 @FrankFang128 中文 ocr 是手写不能识别。这种“机器”的“端正”字体的话对于 ocr 程序还是没压力的。 |
32 84840 2014 年 1 月 27 日 先查源代码研究下这个网站是如何实现这种排版的,没有破解不了的网站。 时间。。。,这时候我想起了《卡徒》 |