1
itskingname 2021 年 2 月 18 日
有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
|
2
AngryPanda 2021 年 2 月 18 日 不负责任猜想:有权限的用户使用了 chrome 浏览器
|
3
littlelooloo 2021 年 2 月 18 日 via Android 你看到的是前段,google 的蜘蛛抓得是后端
|
4
momo1999 2021 年 2 月 18 日
有可能是还没设置权限就被抓了。
|
5
docx 2021 年 2 月 18 日
已知的两种可能:
1. 在源码里,假隐藏,打开 F12 找找 2. 针对 Google Bot 开放检索权限 |
6
docx 2021 年 2 月 18 日
补充一条
3. 还没设置权限时已被抓取 |
7
superrichman 2021 年 2 月 18 日 via iPhone
可能做了 seo 优化,也可能就是漏洞
|
8
westoy 2021 年 2 月 18 日
网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
|
9
ruixue 2021 年 2 月 18 日 大概率是针对 Google 做了 SEO,允许 Googlebot 爬
很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅 甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取 |
10
coolcatha OP @itskingname
@dzyou2007 我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。 @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。 |
13
silymore 2021 年 2 月 18 日 via iPhone
@AngryPanda 记得 360 浏览器这么干过
|
14
coolcatha OP |
15
morethansean 2021 年 2 月 18 日
|
16
coolcatha OP @morethansean 非常感谢。如果是这样,我也没办法去验证了
|
17
ruixue 2021 年 2 月 18 日
|
18
billlee 2021 年 2 月 18 日
|
19
ESP 2021 年 2 月 18 日
这里还真涉及到 discuz 的两个漏洞
|
21
Soar360 2021 年 2 月 18 日
判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。
|