有没有办法不让搜索引擎收录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3357 天前的主题，其中的信息可能已经有所发展或是发生改变。

有个自己用的域名不想被收录，但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ，系统未提供关于该结果的说明 - 了解详情。'

第 1 条附言 · 2015-11-12 12:27:11 +08:00

自己的一些工具，各种特殊权限。被爬虫抓不太好。很感谢大家的回复，我选择了蜘蛛返回 404 。

第 2 条附言 · 2015-11-14 00:28:02 +08:00

其实看到很多人说 robots ，我不是在主题里就说了吗，没有用地

收录

robots

txt

域名

56 条回复 • 2015-11-14 00:55:50 +08:00

Liang

2015-11-11 22:45:41 +08:00

user-agent 来自蜘蛛就 404 ，这样可以吗？

miyuki

2015-11-11 23:14:55 +08:00

不用 Chrome

kuzhan

2015-11-11 23:18:09 +08:00

不解析域名自己访问设置 host

dphdjy

2015-11-11 23:21:35 +08:00

那么这个网站干嘛的~~

imn1

2015-11-12 00:20:18 +08:00

你应该开到暗网里面

congeec

2015-11-12 00:41:31 +08:00 via iPhone

@kuzhan 裸 IP ，没域名也能被爬....
Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意噗哈哈。

Hello1995

2015-11-12 00:53:02 +08:00 via Android

我干过这么中二的事情。
方法一： robots.txt 。但是可能有些蜘蛛不遵守…
方法二：屏蔽蜘蛛 IP 。但是工程量大…
方法三：屏蔽 UA 。简单屏蔽 spider 和 bot 关键字…

aluo1

2015-11-12 05:56:44 +08:00

是不是用 cgi 写的网页不会被爬？
求指教 :-)

sivacohan

2015-11-12 06:53:15 +08:00 via Android

全站 flash

kindjeff

2015-11-12 08:54:08 +08:00

AJAX 返回数据，不会被搜素引擎爬取

franticonion

2015-11-12 09:09:19 +08:00

那就写个脚本刷 server 的 access log 了屏蔽所有 spider 的 user agent 或者 ip

mcone

2015-11-12 09:12:01 +08:00

你就是裸 ip 不绑域名照样能被爬到，更何况你已经有域名指过去了……

@Hello1995 说的方法貌似还可以，但是还得加上一条，不许任何人使用 chrome/360 浏览器访问你的网站（搜狗有没有我还不知道，但是，我觉得吧…………），这俩浏览器都会根据你输入的网址去爬的

多说一句，以上两个浏览器都是我当年测试过的，不保证现在还是这样，有兴趣的话你可以弄个很奇葩的 N 级域名指过去，指到一个随机生成文字的静态页面上测一测。

wizardoz

2015-11-12 09:17:08 +08:00

@aluo1 cgi 接口只是服务器端内部的交互方式，从访问者来看无法区分。

crazycen

2015-11-12 09:19:34 +08:00 via Android

网站不要监听 80 443 端口

imlinhanchao

2015-11-12 09:20:46 +08:00

frozenshadow

2015-11-12 09:23:38 +08:00

检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开

datocp

2015-11-12 09:23:46 +08:00 via Android

qq 空间就因为有个人做了一个爬行网站，不得不加密码。现在自己的 blog 架在网上方便浏览，做了登录密码限制只允许自己看。

fengyqf

2015-11-12 09:36:04 +08:00

检查某个 cookie ，如缺失或非法就返回 404 （或其它异常状态）
然后自己做个隐秘的地址生成该 cookie ，或在浏览器里手工设置 cookie-其实也算是暗网了。

deadEgg

2015-11-12 09:40:06 +08:00

robot.txt
not allow : /;

好像是这么写的可以看看 http 权威指南

raptor

2015-11-12 09:43:33 +08:00

简单加一个 basic auth 即可

ChanneW

2015-11-12 09:45:43 +08:00

全部 js 生成动态 dom

quericy

2015-11-12 09:53:22 +08:00

自己访问 host 绑域名
站点设置只有自己本地绑的那个域名才能访问

wubaiqing

2015-11-12 09:55:55 +08:00

robots.txt
```
User-agent: *
Disallow: /
```

aluo1

2015-11-12 10:10:15 +08:00

@wizardoz 哦哦，谢谢 :-)
之前看到一篇文章说到 cgi 写的网页不能被搜索引擎搜到，也不太明白

realpg

2015-11-12 10:13:20 +08:00

做一个 http basic auth ，认证提示是密码是 123 ，密码是 123 即可

zhanlucky

2015-11-12 10:22:07 +08:00

所有页面的<head>里加上 noindex 标签：
<meta name="robots" content="noindex">
不过注意，网站的 robots.txt 不能屏蔽搜索引擎，不然爬虫永远抓不到这个标签

ajan

2015-11-12 10:25:09 +08:00

参考
https://www.taobao.com/robots.txt

int64ago

2015-11-12 10:26:27 +08:00

AngularJS

or

页面直接生成 SVG ，体验其实也很好

gimp

2015-11-12 10:27:57 +08:00

后台生成图片，返回。

dphdjy

2015-11-12 10:29:08 +08:00

想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~

sneezry

2015-11-12 10:29:42 +08:00

penjianfeng

2015-11-12 10:38:22 +08:00

@sneezry 好主意，赞一个！

hei1000

2015-11-12 10:44:42 +08:00

存在本地吧

learnshare

2015-11-12 10:56:03 +08:00

Robot 规则

caixiexin

2015-11-12 11:04:22 +08:00

放点能被 GFW 认证的信息，然后国内各大搜索引擎就屏蔽了。
再放点 18x 的东西，谷歌搜索默认也不显示了
=。=

lenovo

2015-11-12 12:08:40 +08:00

禁止爬虫 IP 访问
https://github.com/CNMan/htaccess/blob/master/.htaccess

leavic

2015-11-12 12:10:54 +08:00

内容全部用 javascript 呈现

Tink

2015-11-12 12:19:29 +08:00 via iPhone

全站 ajax 可以

blahgeek

2015-11-12 12:38:18 +08:00 via iPhone

为什么没有人说验证码呢？

hqs123

2015-11-12 12:57:18 +08:00

这个很难做到把...

WenJimmy

2015-11-12 13:03:39 +08:00

@caixiexin 哈哈哈

bk201

2015-11-12 13:07:30 +08:00

既然你自己的限制 ip 访问好了

Shunix

2015-11-12 13:49:39 +08:00

@fengyqf 又碰见老熟人了

Felldeadbird

2015-11-12 13:54:31 +08:00

@kindjeff ajax 返回数据，谷歌照样抓。太小看现在的技术了

Smilecc

2015-11-12 14:33:45 +08:00

@leavic Google 现在的技术已经可以爬到这种站点了

ilililili

2015-11-12 16:07:49 +08:00

@dphdjy 这么有意思，啥网站

dphdjy

2015-11-12 16:18:05 +08:00

http://m.douban.com/group/topic/27832943/

icon

2015-11-12 16:24:27 +08:00

@sneezry 这个看起来挺简单这个方法有用吗

hantsy

2015-11-12 16:25:47 +08:00

添加 robox 在 HTTP Server 。。。

hantsy

2015-11-12 16:28:01 +08:00

@int64ago AngularJS 就我的经验看，只有百度蠢，解析不了指令，做 SEO 需要额外的步骤。其它的 Google ， Yahoo ， Bing 不需要任何设置都一样爬得出来。

hantsy

2015-11-12 16:30:12 +08:00

@kindjeff 现在针对 Ajax ， SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。

vmebeh

2015-11-12 16:31:21 +08:00 via Android

主页用 js 跳转一下

flowfire

2015-11-12 16:46:35 +08:00

除了 ban ip 之外，其他的都是防君子不防小人的做法。
伪装 UA 又不是什么很难的事

fengyqf

2015-11-12 18:05:03 +08:00

@Shunix 圈子太小，逃走。。。

ericls

2015-11-13 01:22:56 +08:00

放到 tor 里

lenovo

2015-11-14 00:55:50 +08:00

昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫， Serf 是 pagespeed 的 UA

Options -Indexes

SetEnvIf User-Agent "^Mozilla" good_UA
SetEnvIf User-Agent "^Serf" good_UA

<Limit GET HEAD POST>
order deny,allow
allow from env=good_UA
deny from all
</Limit>