happydayandnight
V2EX  ›  站长

网站如何防爬

  •  
  •   happydayandnight · Apr 23, 2024 · 1897 views
    This topic created in 749 days ago, the information mentioned may be changed or developed.
    我们网站有 IP 限制,一些关键信息还有点击限制,比如电话需要点击才会请求服务器显示,每天也有次数限制(通过 IP )。但是还是被爬了。

    对方提到的技术如下,请问如何防爬:
    l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.
    Supplement 1  ·  Apr 24, 2024
    谢谢各位。 我看了一个 scraper 网站,说有百万个 IP 可以用。这样看来是无论如何也不能完全禁止了
    10 replies    2024-04-24 13:41:06 +08:00
    cruzzz
        1
    cruzzz  
       Apr 23, 2024
    IP 限制、点击限制、次数限制,这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。
    感觉这个话题太大了,以我在 v2 摸鱼这么多年的经验来看,最后一般是:无解~

    没有爬不到的网页。
    passive
        2
    passive  
       Apr 23, 2024 via Android
    关闭字体缓存,随机字体编码。但是也隔绝了搜索引擎的爬虫。
    cJ8SxGOWRH0LSelC
        3
    cJ8SxGOWRH0LSelC  
       Apr 23, 2024   ❤️ 1
    反爬都是以牺牲用户体验为代价的, 例如淘宝, 淘宝网页版反爬,把用户都弄的跑光了, 没一个人会说淘宝的体验好。
    我觉得只要没有影响到服务器运行, 不要用什么反爬策略,最多也就是限制一下极端的请求频率即可。
    devswork
        4
    devswork  
       Apr 23, 2024
    没有绝对的反爬,OCR 怎么解?
    fyq
        5
    fyq  
       Apr 23, 2024
    技术上讲,只要能显示出来的东西,都能被爬到。经济上说,看哪一方谁更愿意投入成本而已。
    pingdog
        6
    pingdog  
       Apr 23, 2024 via Android
    用 css 画不用字体,干下 50%爬虫
    kernelpanic
        7
    kernelpanic  
       Apr 23, 2024
    瑞数
    HUZHUANGZHUANG
        8
    HUZHUANGZHUANG  
       Apr 23, 2024
    cloudflare 的那个进站验证是不是人那个功能,不知道可以不可以
    baobao1270
        9
    baobao1270  
       Apr 24, 2024
    上 Cloudflare ,开 Bot Fight Mode
    happydayandnight
        10
    happydayandnight  
    OP
       Apr 24, 2024
    @baobao1270 开了 Bot Fight Mode 的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3786 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 05:05 · PVG 13:05 · LAX 22:05 · JFK 01:05
    ♥ Do have faith in what you're doing.