V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
mikicomo
V2EX  ›  问与答

盗版小说站的小说来源都来自哪里呢?

  •  
  •   mikicomo · 2016-07-25 23:49:16 +08:00 · 8578 次点击
    这是一个创建于 3034 天前的主题,其中的信息可能已经有所发展或是发生改变。

    他们是如何做到正版小说出了 10 几分钟盗版站就可以更新的呢?这应该不是纯手打吧?还是说起点的防盗版措施以及很容易破解了呢?

    16 条回复    2016-07-26 17:24:47 +08:00
    cxbig
        1
    cxbig  
       2016-07-26 00:03:01 +08:00
    花钱买正版资源,抓下图片有团队 24 小时待命纯手打,从其他途径把钱挣回来。黑产比你想象的更能挣钱,比方说“ XX 神器”。
    mikicomo
        2
    mikicomo  
    OP
       2016-07-26 00:15:46 +08:00
    @cxbig 原来是这样的么?难道就不用什么机器识别的么?毕竟小说太海量了,一章 3000 字, 1W 本就是 3000W 字啊
    cxbig
        3
    cxbig  
       2016-07-26 00:22:29 +08:00
    @mikicomo 想想国内有多少五毛,你就知道这根本不是事。买一份正版,手打合并,在自己的平台卖实时更新等高端服务,免费看的等 1~2 天。手法多得是
    manhere
        4
    manhere  
       2016-07-26 00:24:37 +08:00
    杰奇 关关 啥的,自动采集,与官方同步
    green15
        5
    green15  
       2016-07-26 00:28:04 +08:00 via iPhone
    很久就有起点的 ocr 软件了,手打太落伍了。
    小说站基本用软件更新是直接抓
    cxbig
        6
    cxbig  
       2016-07-26 00:52:13 +08:00
    @green15 OCR 是广泛使用的,人工手打带审阅的也不少。起点有机制防机器抓,像先放一篇假的等机器抓完了再换真文章,所以很多热门小说是有专人盯着的。

    前段时间唐缺在知乎的“人到底可以有多不要脸?”的贴图:
    https://pic2.zhimg.com/0b571eaa058cb81fac7de4bc5493a169_b.jpg
    yexm0
        7
    yexm0  
       2016-07-26 01:37:08 +08:00
    的确,不过我追的小说中发现很少有作者开启这个放盗版的功能.可能是怕给那些心急的正版用户造成不便吧.
    crisfun
        8
    crisfun  
       2016-07-26 03:44:42 +08:00 via iPhone
    @yexm0 其实也有防止为盗版用户带来不便,如同把盗版微软桌面系统赶尽杀绝,巨硬第一个不答应
    aru
        9
    aru  
       2016-07-26 06:26:27 +08:00 via iPhone
    有渠道的,现在大部分文是通过渠道直接抓文本
    如果作者选择不同步到其它渠道,那只能手打
    lslqtz
        10
    lslqtz  
       2016-07-26 06:33:51 +08:00
    @mikicomo 就是所谓的打字员了,如果机器抓不出来就手打
    nichijou
        11
    nichijou  
       2016-07-26 07:21:24 +08:00
    @cxbig 讲的很明确,人工盯是肉眼鉴别真假,最后也是机器抓
    notgod
        12
    notgod  
       2016-07-26 08:01:24 +08:00   ❤️ 2
    你要明确一个定义, 说清楚什么规模的

    真正拿的上台面的更新及时的盗版小说站 不多只有几个 这个姑且叫一线类站
    这类站 有个特点 就是专攻各种搜索排行榜 榜上有名的, 而那些点击小的 没人浏览的 基本都不入库
    所以小说数据不多 但是都是那种热搜的

    像一类站 他们有自己的团队 整个流程比较成熟
    以前是有专门的维护人员 后来改为机器主力,人工辅助
    整个流程差不多这样
    首先 准备付费账户 比如起点 自动订阅小说
    监控系统 自动登录 定时访问 监控到小说有新章节发布, 采集回来
    如果是
    文字章节,直接发布
    图片章节,尝试 OCR 转换, (大站都是定制的 OCR 模块 非常简单 只是字体的问题而已 识别率很高)
    如果 OCR 转换的章节小于 NN 个汉字,代表转换异常
    图片章节,人工修正
    你们好奇这些人工哪里来是不? 大部分是志愿者(练习打字 学五笔。。。。) 少部分兼职
    中国什么多? 人多....

    以前贴吧红火的时候 部分会监控小说贴吧 一般间隔 10 分钟 贴吧就有最新章节出现了
    那时候盗版不管 后来因为盗版问题 一些吧主主动改为 1 小时后更新 .....

    二线小说站 基本都采集
    这类更新都直接采集的一线站点 然后使用采集器 比如关关采集器
    什么作品都采集 靠量 一些乱七八糟的也采
    然后你就经常看到一些 底部会加水印

    我也不记得我哪年做过小说站了
    应该是上海移动怒江机房被断网那年 我有个机器被 ko 了
    那时候小说站不多 我挂个小说的小偷程序 一天都 50000IP 以上
    后来感觉没挑战性 就撤了 那时候根本没什么版权概念 没人管

    到现在我还有 2 个小说域名 我都不稀罕说......
    NjV3eC5jb20= 和 eXl6dy5uZXQ=
    cye3s
        13
    cye3s  
       2016-07-26 08:28:11 +08:00 via Android
    起点手机浏览器版文本可直接复制
    changshu
        14
    changshu  
       2016-07-26 08:46:50 +08:00
    起点 VIP ORC 很成熟了, 在还没 android 那年代, UC 的特色功能之一就是起点 VIP 图片文字重排适配屏幕。


    @cxbig 伪更新是作者搞的, 不是起点, 涉及到骗全勤和订阅字数的问题一旦举报起点要罚作者的, 只是一般不举不究。
    changshu
        15
    changshu  
       2016-07-26 08:47:04 +08:00
    ORC->OCR
    mikicomo
        16
    mikicomo  
    OP
       2016-07-26 17:24:47 +08:00
    @changshu 原来如此,看来小说站也是各种姿势啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1852 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:37 · PVG 00:37 · LAX 08:37 · JFK 11:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.