这个网站是怎么反爬取的鸭

This topic created in 1960 days ago, the information mentioned may be changed or developed.

4 replies • 2021-03-18 13:32:16 +08:00

crab

Mar 18, 2021

F12 有 2 个地方的 debugger 设置 never pause here

happydebug

Mar 18, 2021 via iPhone

@crab 这个我知道，但无法实现抓取

xingshu1990

Mar 18, 2021

通常这类网站是 JS 渲染出来的内容，另外有加密过，参考裁判文书网之类的网站，就是不给你爬虫爬。

cmostuor

Mar 18, 2021

浏览器 F12 调试模式 -> 网络 -> 找到网站请求的 url 右键 -> 复制->复制为 cURL(bash) 会得到这样的代码

curl 'http://www.chinadrugtrials.org.cn/clinicaltrials.searchlistdetail.dhtml?id=eb6173d1faf4447bb8e69aaca2547d09' \
-H 'Connection: keep-alive' \
-H 'Pragma: no-cache' \
-H 'Cache-Control: no-cache' \
-H 'DNT: 1' \
-H 'Upgrade-Insecure-Requests: 1' \
-H 'User-Agent: *****' \
-H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' \
-H 'Referer: http://www.chinadrugtrials.org.cn/clinicaltrials.searchlistdetail.dhtml?id=eb6173d1faf4447bb8e69aaca2547d09' \
-H 'Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6' \
-H 'Cookie: *****' \
--compressed \
--insecure
然后到 bash 里粘贴运行发现拿到的页面数据是只是加密的 js, 也就意味着网页是客户端动态渲染的. 想抓取那么得在爬数据前用 Selenium WebDriver 这类浏览器自动化的工具或浏览器源码定制开发渲染层或直接基于这样的工具或浏览器源码开发爬虫, 基于浏览器自动化工具开发爬虫最快.