一个网站的终极内容防复制的设计，没见过更加丧心病狂的了，求破求算法

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4455 天前的主题，其中的信息可能已经有所发展或是发生改变。

很多年前发现的一个奇葩网站，内部所有文章的内容都用一种奇葩的防复制设计，不但防机器人，还防人肉复制，曾想破脑袋去破，最终还是放弃了，耿耿于怀了很多年，原始网址忘记了，就用一个图片来说说这个设计吧，看看大家有没有破法。

整篇文章被多个表格包围，表格大小随机，一个文字一格，手工复制出来，导成纯文字版整个文章文字顺序全部打乱，无法阅读。

复制

奇葩

很多年

32 条回复 1970-01-01 08:00:00 +08:00

Livid

MOD

PRO

2014 年 1 月 27 日 via iPhone

如果对方还考虑 SEO 的话，把 UA 伪装成百度看看能不能拿到不同的输出。

raincious

2014 年 1 月 27 日

截图OCR转换。

jjplay

2014 年 1 月 27 日

国人都是人才...

Evance

2014 年 1 月 27 日

如果生成的算法在后端，那么通过字符串处理的办法，很大情况情况无解，通过 @raincious 所说的办法比较有效。
如果算法在前端，找到生成脚本修改处理的算法函数即可。

hq5261984

2014 年 1 月 27 日

chrome浏览器粘帖为纯文本。
然后自己再排版。

bengtuo

2014 年 1 月 27 日

只要能看到正确的内容便是可以破的

FrankFang128

2014 年 1 月 27 日

好办法。对付copy者很管用。

FrankFang128

2014 年 1 月 27 日

@bengtuo 中文OCR识别度太烂，所以楼主说的这种暂时无解，我觉得。

Mutoo

2014 年 1 月 27 日

其实也不是没办法，可以把每个字的位置信息提取出来，然后做一个二维链表把它们重新排序。就像古代印刷术那样，最后得到文字内容。

提取位置的方法有很多，这里我弄了个示例
http://jsfiddle.net/mutoo/w5KJz/

casparchen

2014 年 1 月 27 日 via iPad

他怎么处理的，你就逆处理呗。比如他是按原文本行列号生成表格坐标，那只需将坐标转换成行列号再拼凑字符串即可

icedx

2014 年 1 月 27 日 via Android

@FrankFang128 没有识别不出来的文字只有识别不出文字的软件

jinwyp

2014 年 1 月 27 日

我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制

yangff

2014 年 1 月 27 日

@jinwyp 前端绘制都可以做，大不了自己编译个chrome把freetype的接口暴露出来，直接服务端下发图片就行了，只能ORC。

x86

2014 年 1 月 27 日

贴个地址出来

raincious

2014 年 1 月 27 日

@FrankFang128 False。就算建立自己的字图索引，网页截图那么高精度的采样，识别这个，没有任何问题。

zxp

2014 年 1 月 27 日

关键是上面只是这个网站页面的一种情况，最纠结的就是表格还有嵌套，所以要写个机器人来自动抓内容面临的困难太大了，网站内容的自动生成的算法也很让人困扰，最后只能怀疑网站是全人工手动制作的，只能佩服站长为了防复制的巨大毅力了。。。

Mutoo

2014 年 1 月 27 日

@zxp 建立字符位置信息可以无视嵌套。位置是相对于网页边界的。

zxp

2014 年 1 月 27 日

@Mutoo 啊，很对，很好的思路！

zxp

2014 年 1 月 27 日

内容生成的算法其实之前也想过一些，比较靠谱的是先生成表格的布局，对每个格子进行编号，然后对格子排序，把文字内容按顺序填写进去，相对抓取的难度应该要小一些。

hsu

2014 年 1 月 27 日

@Mutoo 赞一个。

xiaket

2014 年 1 月 27 日

@zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来.

如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等...