网站如何防爬 - V2EX

Home Sign Up Sign In

推荐书目

› 高性能网站建设进阶指南

› High Performance Web Sites

› Google Hacks: Tips & Tools for Finding and Using the World's Information

关于 Google SEO 最好的一本书

This topic created in 749 days ago, the information mentioned may be changed or developed.

我们网站有 IP 限制，一些关键信息还有点击限制，比如电话需要点击才会请求服务器显示，每天也有次数限制（通过 IP ）。但是还是被爬了。

对方提到的技术如下，请问如何防爬：
l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.

Supplement 1 · Apr 24, 2024

谢谢各位。我看了一个 scraper 网站，说有百万个 IP 可以用。这样看来是无论如何也不能完全禁止了

10 replies • 2024-04-24 13:41:06 +08:00

1

cruzzz

Apr 23, 2024

IP 限制、点击限制、次数限制，这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。
感觉这个话题太大了，以我在 v2 摸鱼这么多年的经验来看，最后一般是：无解~

没有爬不到的网页。

2

passive

Apr 23, 2024 via Android

关闭字体缓存，随机字体编码。但是也隔绝了搜索引擎的爬虫。

3

cJ8SxGOWRH0LSelC

Apr 23, 2024

1

反爬都是以牺牲用户体验为代价的，例如淘宝，淘宝网页版反爬，把用户都弄的跑光了，没一个人会说淘宝的体验好。
我觉得只要没有影响到服务器运行，不要用什么反爬策略，最多也就是限制一下极端的请求频率即可。

4

devswork

Apr 23, 2024

没有绝对的反爬，OCR 怎么解？

5

fyq

Apr 23, 2024

技术上讲，只要能显示出来的东西，都能被爬到。经济上说，看哪一方谁更愿意投入成本而已。

6

pingdog

Apr 23, 2024 via Android

用 css 画不用字体，干下 50%爬虫

7

kernelpanic

Apr 23, 2024

瑞数

8

HUZHUANGZHUANG

Apr 23, 2024

cloudflare 的那个进站验证是不是人那个功能，不知道可以不可以

9

baobao1270

Apr 24, 2024

上 Cloudflare ，开 Bot Fight Mode

10

happydayandnight

OP

Apr 24, 2024

@baobao1270 开了 Bot Fight Mode 的

About · Help · Advertise · Blog · API · FAQ · Solana · 3786 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 53ms · UTC 05:05 · PVG 13:05 · LAX 22:05 · JFK 01:05
♥ Do have faith in what you're doing.