This topic created in 749 days ago, the information mentioned may be changed or developed.
我们网站有 IP 限制,一些关键信息还有点击限制,比如电话需要点击才会请求服务器显示,每天也有次数限制(通过 IP )。但是还是被爬了。
对方提到的技术如下,请问如何防爬:
l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.
Supplement 1 · Apr 24, 2024
谢谢各位。 我看了一个 scraper 网站,说有百万个 IP 可以用。这样看来是无论如何也不能完全禁止了
10 replies • 2024-04-24 13:41:06 +08:00
 |
|
1
cruzzz Apr 23, 2024
IP 限制、点击限制、次数限制,这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。 感觉这个话题太大了,以我在 v2 摸鱼这么多年的经验来看,最后一般是:无解~
没有爬不到的网页。
|
 |
|
2
passive Apr 23, 2024 via Android
关闭字体缓存,随机字体编码。但是也隔绝了搜索引擎的爬虫。
|
 |
|
3
cJ8SxGOWRH0LSelC Apr 23, 2024 1
反爬都是以牺牲用户体验为代价的, 例如淘宝, 淘宝网页版反爬,把用户都弄的跑光了, 没一个人会说淘宝的体验好。 我觉得只要没有影响到服务器运行, 不要用什么反爬策略,最多也就是限制一下极端的请求频率即可。
|
 |
|
4
devswork Apr 23, 2024
没有绝对的反爬,OCR 怎么解?
|
 |
|
5
fyq Apr 23, 2024
技术上讲,只要能显示出来的东西,都能被爬到。经济上说,看哪一方谁更愿意投入成本而已。
|
 |
|
6
pingdog Apr 23, 2024 via Android
用 css 画不用字体,干下 50%爬虫
|
 |
|
9
baobao1270 Apr 24, 2024
上 Cloudflare ,开 Bot Fight Mode
|