有个自己用的域名不想被收录,但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ,系统未提供关于该结果的说明 - 了解详情。'
1
Liang 2015-11-11 22:45:41 +08:00
user-agent 来自蜘蛛就 404 ,这样可以吗?
|
2
miyuki 2015-11-11 23:14:55 +08:00
不用 Chrome
|
3
kuzhan 2015-11-11 23:18:09 +08:00
不解析域名 自己访问设置 host
|
4
dphdjy 2015-11-11 23:21:35 +08:00
那么这个网站干嘛的~~
|
5
imn1 2015-11-12 00:20:18 +08:00
你应该开到暗网里面
|
6
congeec 2015-11-12 00:41:31 +08:00 via iPhone
@kuzhan 裸 IP ,没域名也能被爬....
Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意 噗哈哈。 |
7
Hello1995 2015-11-12 00:53:02 +08:00 via Android
我干过这么中二的事情。
方法一: robots.txt 。但是可能有些蜘蛛不遵守… 方法二:屏蔽蜘蛛 IP 。 但是工程量大… 方法三:屏蔽 UA 。 简单屏蔽 spider 和 bot 关键字… |
8
aluo1 2015-11-12 05:56:44 +08:00
是不是用 cgi 写的网页不会被爬?
求指教 :-) |
9
sivacohan 2015-11-12 06:53:15 +08:00 via Android 1
全站 flash
|
10
kindjeff 2015-11-12 08:54:08 +08:00
AJAX 返回数据,不会被搜素引擎爬取
|
11
franticonion 2015-11-12 09:09:19 +08:00
那就写个脚本刷 server 的 access log 了 屏蔽所有 spider 的 user agent 或者 ip
|
12
mcone 2015-11-12 09:12:01 +08:00
你就是裸 ip 不绑域名照样能被爬到,更何况你已经有域名指过去了……
@Hello1995 说的方法貌似还可以,但是还得加上一条,不许任何人使用 chrome/360 浏览器访问你的网站(搜狗有没有我还不知道,但是,我觉得吧…………),这俩浏览器都会根据你输入的网址去爬的 多说一句,以上两个浏览器都是我当年测试过的,不保证现在还是这样,有兴趣的话你可以弄个很奇葩的 N 级域名指过去,指到一个随机生成文字的静态页面上测一测。 |
14
crazycen 2015-11-12 09:19:34 +08:00 via Android
网站不要监听 80 443 端口
|
15
imlinhanchao 2015-11-12 09:20:46 +08:00
<meta name="robots" content="noindex, nofollow, nosnippet, noarchive">
|
16
frozenshadow 2015-11-12 09:23:38 +08:00
检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开
|
17
datocp 2015-11-12 09:23:46 +08:00 via Android
qq 空间就因为有个人做了一个爬行网站,不得不加密码。现在自己的 blog 架在网上方便浏览,做了登录密码限制只允许自己看。
|
18
fengyqf 2015-11-12 09:36:04 +08:00
检查某个 cookie ,如缺失或非法就返回 404 (或其它异常状态)
然后自己做个隐秘的地址生成该 cookie ,或在浏览器里手工设置 cookie-其实也算是暗网了。 |
19
deadEgg 2015-11-12 09:40:06 +08:00
robot.txt
not allow : /; 好像是这么写的 可以看看 http 权威指南 |
20
raptor 2015-11-12 09:43:33 +08:00
简单加一个 basic auth 即可
|
21
ChanneW 2015-11-12 09:45:43 +08:00
全部 js 生成 动态 dom
|
22
quericy 2015-11-12 09:53:22 +08:00
自己访问 host 绑域名
站点设置只有自己本地绑的那个域名才能访问 |
23
wubaiqing 2015-11-12 09:55:55 +08:00
robots.txt
``` User-agent: * Disallow: / ``` |
25
realpg 2015-11-12 10:13:20 +08:00
做一个 http basic auth ,认证提示是 密码是 123 ,密码是 123 即可
|
26
zhanlucky 2015-11-12 10:22:07 +08:00
所有页面的<head>里加上 noindex 标签:
<meta name="robots" content="noindex"> 不过注意,网站的 robots.txt 不能屏蔽搜索引擎,不然爬虫永远抓不到这个标签 |
27
ajan 2015-11-12 10:25:09 +08:00
|
28
int64ago 2015-11-12 10:26:27 +08:00
AngularJS
or 页面直接生成 SVG ,体验其实也很好 |
29
gimp 2015-11-12 10:27:57 +08:00
后台生成图片,返回。
|
30
dphdjy 2015-11-12 10:29:08 +08:00
想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~
|
31
sneezry 2015-11-12 10:29:42 +08:00 4
|
32
penjianfeng 2015-11-12 10:38:22 +08:00
@sneezry 好主意,赞一个!
|
33
hei1000 2015-11-12 10:44:42 +08:00
存在本地吧
|
34
learnshare 2015-11-12 10:56:03 +08:00
Robot 规则
|
35
caixiexin 2015-11-12 11:04:22 +08:00
放点能被 GFW 认证的信息,然后国内各大搜索引擎就屏蔽了。
再放点 18x 的东西,谷歌搜索默认也不显示了 =。= |
36
lenovo 2015-11-12 12:08:40 +08:00
|
37
leavic 2015-11-12 12:10:54 +08:00
内容全部用 javascript 呈现
|
38
Tink 2015-11-12 12:19:29 +08:00 via iPhone
全站 ajax 可以
|
39
blahgeek 2015-11-12 12:38:18 +08:00 via iPhone
为什么没有人说验证码呢?
|
40
hqs123 2015-11-12 12:57:18 +08:00
这个很难做到把...
|
42
bk201 2015-11-12 13:07:30 +08:00
既然你自己的限制 ip 访问好了
|
44
Felldeadbird 2015-11-12 13:54:31 +08:00
@kindjeff ajax 返回数据,谷歌照样抓。 太小看现在的技术了
|
47
dphdjy 2015-11-12 16:18:05 +08:00
|
49
hantsy 2015-11-12 16:25:47 +08:00
添加 robox 在 HTTP Server 。。。
|
50
hantsy 2015-11-12 16:28:01 +08:00
@int64ago AngularJS 就我的经验看,只有百度蠢,解析不了指令,做 SEO 需要额外的步骤。其它的 Google , Yahoo , Bing 不需要任何设置都一样爬得出来。
|
51
hantsy 2015-11-12 16:30:12 +08:00
@kindjeff 现在针对 Ajax , SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。
|
52
vmebeh 2015-11-12 16:31:21 +08:00 via Android
主页用 js 跳转一下
|
53
flowfire 2015-11-12 16:46:35 +08:00
除了 ban ip 之外,其他的都是防君子不防小人的做法。
伪装 UA 又不是什么很难的事 |
55
ericls 2015-11-13 01:22:56 +08:00
放到 tor 里
|
56
lenovo 2015-11-14 00:55:50 +08:00
昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫, Serf 是 pagespeed 的 UA
Options -Indexes SetEnvIf User-Agent "^Mozilla" good_UA SetEnvIf User-Agent "^Serf" good_UA <Limit GET HEAD POST> order deny,allow allow from env=good_UA deny from all </Limit> |