V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
nmask

网站 404 页面识别技术方案探讨(~!~本人基于余弦相似性算法研究了一部分~!~)

  •  
  •   nmask · Jun 4, 2018 · 3487 views
    This topic created in 2892 days ago, the information mentioned may be changed or developed.

    前段时间研究了下基于余弦相似性的 404 页面识别技术方案,这是当时记录的笔记与心得,有兴趣的可以看看:

    https://thief.one/2018/04/12/1/

    研究结果虽然提升了 404 页面识别的准确性,但感觉仍有不足,有兴趣的可以一起探讨探讨。

    注明:由于完整代码涉及公司项目,就不全部放出来了。再了解了具体实现方案后,代码实现还是比较容易的。

    这是博客里面最终写到的 404 页面测试 api:

    https://api.nmask.cn/not_exist_page_calculation/?target_url=https://www.baidu.com/not_exist_page

    7 replies    2018-06-05 10:21:59 +08:00
    amamiyasachi
        1
    amamiyasachi  
       Jun 4, 2018
    https://api.nmask.cn/not_exist_page_calculation/?target_url=http://www.meowmere.com/abcd
    拿自己的网站自定义 404 试了一下,很强=。=
    amamiyasachi
        2
    amamiyasachi  
       Jun 4, 2018
    location ~ ^/this_is_nmask_test_404_page.* {
    content_by_lua_block {
    ngx.print('1')
    }
    }
    添加了这么一段,屏蔽了测试页面=。=
    codehz
        3
    codehz  
       Jun 5, 2018
    话说有些部署在 github pages 上的单页应用,就提供了一个 404.html,然后内容全靠 js 跑,这种应该没法准确判断吧
    nmask
        4
    nmask  
    OP
       Jun 5, 2018
    @amamiyasachi 哈哈,我可以设置个随机路径,就没法屏蔽啦。
    nmask
        5
    nmask  
    OP
       Jun 5, 2018
    @codehz 应该可以,只要 404 页面不会随机变化,就能判断
    codehz
        6
    codehz  
       Jun 5, 2018 via Android
    @nmask 我的意思是这样的话无论实际上是不是 404 页面,获取到的 html 都是一样的,只能通过执行 js 才能获得内容。。。。
    nmask
        7
    nmask  
    OP
       Jun 5, 2018
    @codehz 嗯呢,这种得用 headless chrome 等无头浏览器的技术去加载 js,最终的渲染以后的源码。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2894 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 09:14 · PVG 17:14 · LAX 02:14 · JFK 05:14
    ♥ Do have faith in what you're doing.