1
Livid MOD 如果对方还考虑 SEO 的话,把 UA 伪装成百度看看能不能拿到不同的输出。
|
2
raincious 2014-01-27 10:42:40 +08:00 3
截图OCR转换。
|
3
jjplay 2014-01-27 11:09:10 +08:00
国人都是人才...
|
4
Evance 2014-01-27 11:17:38 +08:00
如果生成的算法在后端,那么通过字符串处理的办法,很大情况情况无解,通过 @raincious 所说的办法比较有效。
如果算法在前端,找到生成脚本修改处理的算法函数即可。 |
5
hq5261984 2014-01-27 11:25:22 +08:00 2
chrome浏览器 粘帖为纯文本。
然后自己再排版。 |
6
bengtuo 2014-01-27 11:27:06 +08:00
只要能看到正确的内容 便是可以破的
|
7
FrankFang128 2014-01-27 11:27:18 +08:00
好办法。 对付copy者很管用。
|
8
FrankFang128 2014-01-27 11:28:14 +08:00
@bengtuo 中文OCR识别度太烂,所以楼主说的这种暂时无解,我觉得。
|
9
Mutoo 2014-01-27 11:36:15 +08:00 4
其实也不是没办法,可以把每个字的位置信息提取出来,然后做一个二维链表把它们重新排序。就像古代印刷术那样,最后得到文字内容。
提取位置的方法有很多,这里我弄了个示例 http://jsfiddle.net/mutoo/w5KJz/ |
10
casparchen 2014-01-27 11:40:04 +08:00 via iPad
他怎么处理的,你就逆处理呗。比如他是按原文本行列号生成表格坐标,那只需将坐标转换成行列号再拼凑字符串即可
|
11
icedx 2014-01-27 12:14:37 +08:00 via Android
@FrankFang128 没有识别不出来的文字 只有识别不出文字的软件
|
12
jinwyp 2014-01-27 12:21:23 +08:00
我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制
|
13
yangff 2014-01-27 12:23:19 +08:00
@jinwyp 前端绘制都可以做,大不了自己编译个chrome把freetype的接口暴露出来,直接服务端下发图片就行了,只能ORC。
|
14
x86 2014-01-27 12:25:17 +08:00
贴个地址出来
|
15
raincious 2014-01-27 12:26:22 +08:00
@FrankFang128 False。就算建立自己的字图索引,网页截图那么高精度的采样,识别这个,没有任何问题。
|
16
zxp OP 关键是上面只是这个网站页面的一种情况,最纠结的就是表格还有嵌套,所以要写个机器人来自动抓内容面临的困难太大了,网站内容的自动生成的算法也很让人困扰,最后只能怀疑网站是全人工手动制作的,只能佩服站长为了防复制的巨大毅力了。。。
|
19
zxp OP 内容生成的算法其实之前也想过一些,比较靠谱的是先生成表格的布局,对每个格子进行编号,然后对格子排序,把文字内容按顺序填写进去,相对抓取的难度应该要小一些。
|
21
xiaket 2014-01-27 12:45:02 +08:00 1
@zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来.
如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等... |
22
shakoon 2014-01-27 12:46:21 +08:00
赞,这招原创文学网站可以借鉴
|
23
FrankFang128 2014-01-27 12:57:10 +08:00 1
@shakoon 嗯,我也觉得,简单的随机切割,使得破解难度大大增加。看看上面说的几个解决方案,没有编程基础的人员搞不定的。所以可以防止一大片想要 copy 的人。
|
24
davidyin 2014-01-27 15:50:41 +08:00
复制的时候不是连表格一起复制的么?
粘帖的时候也连表格一起就好了。 |
25
d0a1ccec 2014-01-27 16:36:37 +08:00
来个url吧 ,楼主
|
26
anheiyouxia 2014-01-27 17:40:19 +08:00
我记得N年以前似乎也遇到过这样的网站
|
27
9hills 2014-01-27 17:40:30 +08:00
@FrankFang128 网页截图这么清晰,中文OCR识别率很高的。
|
28
icyalala 2014-01-27 17:44:15 +08:00 2
只要人能认出来,就防止不了人肉复制啊。。
你看起点中文之类的网站比这还要丧心病狂,换字体,渲染成图片,那些盗版小说站点照样能弄出来。。靠的就是“手打”。。 在中国,人力成本非常低。。。 |
29
xunyu 2014-01-27 17:46:57 +08:00
对啊,ocr啊,在去噪下就解决了
|
30
zxp OP |
31
yangzh 2014-01-27 22:20:48 +08:00
@FrankFang128 中文 ocr 是手写不能识别。这种“机器”的“端正”字体的话对于 ocr 程序还是没压力的。
|
32
84840 2014-01-27 23:44:35 +08:00
先查源代码研究下这个网站是如何实现这种排版的,没有破解不了的网站。
时间。。。,这时候我想起了《卡徒》 |