V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
luosuosile
V2EX  ›  程序员

提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

  •  
  •   luosuosile · Jul 20, 2018 · 26741 views
    This topic created in 2851 days ago, the information mentioned may be changed or developed.

    我想的是。

    先是提取关键字,然后根据关键字定位。

    以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

    那比如纳粹图表,血腥图片的又怎么办呢?

    现在我发现压缩包的能找到了,

    百度难道真的给你解压缩一遍了?

    最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

    那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

    53 replies    2018-07-22 09:32:38 +08:00
    dewi
        1
    dewi  
       Jul 20, 2018 via iPhone
    这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
    luosuosile
        2
    luosuosile  
    OP
       Jul 20, 2018
    @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
    flynaj
        3
    flynaj  
       Jul 20, 2018 via Android
    不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
    luosuosile
        4
    luosuosile  
    OP
       Jul 20, 2018
    @flynaj thanks 学习了
    easylee
        5
    easylee  
       Jul 20, 2018 via Android
    对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
    love4taylor
        6
    love4taylor  
    PRO
       Jul 20, 2018 via Android
    加密并且对包内文件名加密
    someonetwo
        7
    someonetwo  
       Jul 20, 2018
    如果压缩包加密的话不知道还能不能检测出来
    aaax7676
        8
    aaax7676  
       Jul 20, 2018 via Android
    估计是有人在线解压了
    msg7086
        9
    msg7086  
       Jul 20, 2018
    解压又没技术难度……
    度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。
    zzsx1937
        10
    zzsx1937  
       Jul 20, 2018
    双层加密压缩 内层最好改文件后缀
    zhangpeter
        11
    zhangpeter  
       Jul 20, 2018
    @msg7086 为什么广场是敏感词?
    loukky
        12
    loukky  
       Jul 20, 2018 via Android
    @zhangpeter T A M
    Telegram
        13
    Telegram  
       Jul 20, 2018 via iPhone
    @zhangpeter #11 天安门广场,64 事件呗
    leafleave
        14
    leafleave  
       Jul 20, 2018 via iPhone
    文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
    torbrowserbridge
        15
    torbrowserbridge  
       Jul 20, 2018 via Android
    666 天朝关键字真多
    ZeoKarl
        16
    ZeoKarl  
       Jul 20, 2018 via iPhone
    压缩并且加密,很多开车群都是这么搞得。
    kkeybbs
        17
    kkeybbs  
       Jul 20, 2018 via iPhone
    最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。

    一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。

    高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。
    jmercer
        18
    jmercer  
       Jul 20, 2018
    在这里说 64 会不会被封[doge]
    badcode
        19
    badcode  
       Jul 20, 2018 via iPhone
    压缩文件,都把加密文件名勾上……
    a566
        20
    a566  
       Jul 20, 2018 via Android
    7z 好像可以逃过
    kokutou
        21
    kokutou  
       Jul 20, 2018 via Android
    rar 加密码,然后勾上加密文件名就行了。。。。
    annielong
        22
    annielong  
       Jul 20, 2018
    rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
    imdong
        23
    imdong  
       Jul 20, 2018
    文件名检测,头信息特征检测。
    比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。
    获取压缩包文件列表,检查压缩包内文件名是否有关键词。
    获取压缩包内文件 CRC (类)是否在黑名单。
    最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。
    还要严格,那就?所有文件解压出来,图片视频走 AI 识别?
    woodvillage
        24
    woodvillage  
       Jul 20, 2018
    你不是一个人
    RyougiShiki
        25
    RyougiShiki  
       Jul 20, 2018
    我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
    dalieba
        26
    dalieba  
       Jul 20, 2018 via Android
    那就上传一份加密的 RAR 试试看吧。
    workspace
        27
    workspace  
       Jul 20, 2018
    tar tf 只看,不解压
    nikolai
        28
    nikolai  
       Jul 20, 2018
    有人在线解压过,文件 md5 被认证了
    metorm
        29
    metorm  
       Jul 20, 2018 via Android
    如果是大路货压缩文件,直接 md5 匹配上就可以了
    t6attack
        30
    t6attack  
       Jul 20, 2018   ❤️ 2
    文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。

    假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。

    一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。
    至于只被一个网盘保存的文件,没人查你。也查不过来。

    你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。
    图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。
    luosuosile
        31
    luosuosile  
    OP
       Jul 20, 2018
    @t6attack 学习了,感谢
    JamesR
        32
    JamesR  
       Jul 20, 2018 via Android
    有纱布在线解压了,就这么简单。
    KevZhi
        33
    KevZhi  
       Jul 20, 2018 via iPhone   ❤️ 1
    @t6attack
    BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封

    甚至磁力下载的黄油 ISO 镜像都被封过


    显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。


    另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了

    当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。

    也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。

    百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。
    Tlin
        34
    Tlin  
       Jul 20, 2018
    @t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
    flyoungstudio
        35
    flyoungstudio  
       Jul 20, 2018
    PGP Desktop,你值得拥有
    go
        36
    go  
       Jul 20, 2018
    @t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
    按照你的说法 也就是检查热门文件 。。
    go
        37
    go  
       Jul 20, 2018
    @KevZhi #33 不断快进这段 笑了
    hu5ky
        38
    hu5ky  
       Jul 20, 2018
    应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
    yjd
        39
    yjd  
       Jul 20, 2018
    你加个中文密码。23333
    f2ck
        40
    f2ck  
       Jul 20, 2018
    压缩 加密一哈 就可以了
    Raymon111111
        41
    Raymon111111  
       Jul 20, 2018
    加密啊
    psychoo
        42
    psychoo  
       Jul 20, 2018
    @KevZhi 还有在同一时刻附近停止播放并关闭网页 hhhhh
    crab
        43
    crab  
       Jul 20, 2018
    @KevZhi 老哥有经验。快进撸点哈哈!
    mmdsun
        44
    mmdsun  
       Jul 20, 2018 via Android
    你压缩包设置密码就行。
    akira
        45
    akira  
       Jul 20, 2018
    @go 在可见的未来,你以为的这些技术也会成为现实
    LudwigWS
        46
    LudwigWS  
       Jul 20, 2018
    向老司机们学习
    ezXE2V
        47
    ezXE2V  
       Jul 20, 2018 via Android
    在线解压就会被封
    wsc449
        48
    wsc449  
       Jul 20, 2018
    向老司机们学习
    pWHx3x96
        49
    pWHx3x96  
       Jul 20, 2018
    @psychoo pornhub 那个热力图的思路好像也是这样 hhh
    JerryCha
        50
    JerryCha  
       Jul 20, 2018
    大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的
    arabshia
        51
    arabshia  
       Jul 21, 2018
    向老司机们学习
    winglight2016
        52
    winglight2016  
       Jul 21, 2018
    @torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来
    sungkyu
        53
    sungkyu  
       Jul 22, 2018
    楼主,Winsw1.9.exe 那两个链接都失效了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1326 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 148ms · UTC 17:31 · PVG 01:31 · LAX 10:31 · JFK 13:31
    ♥ Do have faith in what you're doing.