V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
just1
V2EX  ›  程序员

有没有办法不让搜索引擎收录

  •  
  •   just1 · Nov 11, 2015 via Android · 7784 views
    This topic created in 3819 days ago, the information mentioned may be changed or developed.

    有个自己用的域名不想被收录,但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ,系统未提供关于该结果的说明 - 了解详情。'

    Supplement 1  ·  Nov 12, 2015
    自己的一些工具,各种特殊权限。被爬虫抓不太好。很感谢大家的回复,我选择了蜘蛛返回 404 。
    Supplement 2  ·  Nov 14, 2015
    其实看到很多人说 robots ,我不是在主题里就说了吗,没有用地
    56 replies    2015-11-14 00:55:50 +08:00
    Liang
        1
    Liang  
       Nov 11, 2015
    user-agent 来自蜘蛛就 404 ,这样可以吗?
    miyuki
        2
    miyuki  
       Nov 11, 2015
    不用 Chrome
    manus
        3
    manus  
       Nov 11, 2015
    不解析域名 自己访问设置 host
    dphdjy
        4
    dphdjy  
       Nov 11, 2015
    那么这个网站干嘛的~~
    imn1
        5
    imn1  
       Nov 12, 2015
    你应该开到暗网里面
    congeec
        6
    congeec  
       Nov 12, 2015 via iPhone
    @kuzhan 裸 IP ,没域名也能被爬....
    Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意 噗哈哈。
    Hello1995
        7
    Hello1995  
       Nov 12, 2015 via Android
    我干过这么中二的事情。
    方法一: robots.txt 。但是可能有些蜘蛛不遵守…
    方法二:屏蔽蜘蛛 IP 。 但是工程量大…
    方法三:屏蔽 UA 。 简单屏蔽 spider 和 bot 关键字…
    aluo1
        8
    aluo1  
       Nov 12, 2015
    是不是用 cgi 写的网页不会被爬?
    求指教 :-)
    sivacohan
        9
    sivacohan  
    PRO
       Nov 12, 2015 via Android   ❤️ 1
    全站 flash
    kindjeff
        10
    kindjeff  
       Nov 12, 2015
    AJAX 返回数据,不会被搜素引擎爬取
    franticonion
        11
    franticonion  
       Nov 12, 2015
    那就写个脚本刷 server 的 access log 了 屏蔽所有 spider 的 user agent 或者 ip
    mcone
        12
    mcone  
       Nov 12, 2015
    你就是裸 ip 不绑域名照样能被爬到,更何况你已经有域名指过去了……

    @Hello1995 说的方法貌似还可以,但是还得加上一条,不许任何人使用 chrome/360 浏览器访问你的网站(搜狗有没有我还不知道,但是,我觉得吧…………),这俩浏览器都会根据你输入的网址去爬的

    多说一句,以上两个浏览器都是我当年测试过的,不保证现在还是这样,有兴趣的话你可以弄个很奇葩的 N 级域名指过去,指到一个随机生成文字的静态页面上测一测。
    wizardoz
        13
    wizardoz  
       Nov 12, 2015
    @aluo1 cgi 接口只是服务器端内部的交互方式,从访问者来看无法区分。
    crazycen
        14
    crazycen  
       Nov 12, 2015 via Android
    网站不要监听 80 443 端口
    imlinhanchao
        15
    imlinhanchao  
       Nov 12, 2015
    <meta name="robots" content="noindex, nofollow, nosnippet, noarchive">
    frozenshadow
        16
    frozenshadow  
       Nov 12, 2015
    检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开
    datocp
        17
    datocp  
       Nov 12, 2015 via Android
    qq 空间就因为有个人做了一个爬行网站,不得不加密码。现在自己的 blog 架在网上方便浏览,做了登录密码限制只允许自己看。
    fengyqf
        18
    fengyqf  
       Nov 12, 2015
    检查某个 cookie ,如缺失或非法就返回 404 (或其它异常状态)
    然后自己做个隐秘的地址生成该 cookie ,或在浏览器里手工设置 cookie-其实也算是暗网了。
    deadEgg
        19
    deadEgg  
       Nov 12, 2015
    robot.txt
    not allow : /;

    好像是这么写的 可以看看 http 权威指南
    raptor
        20
    raptor  
       Nov 12, 2015
    简单加一个 basic auth 即可
    ChanneW
        21
    ChanneW  
       Nov 12, 2015
    全部 js 生成 动态 dom
    quericy
        22
    quericy  
       Nov 12, 2015
    自己访问 host 绑域名
    站点设置只有自己本地绑的那个域名才能访问
    wubaiqing
        23
    wubaiqing  
       Nov 12, 2015
    robots.txt
    ```
    User-agent: *
    Disallow: /
    ```
    aluo1
        24
    aluo1  
       Nov 12, 2015
    @wizardoz 哦哦,谢谢 :-)
    之前看到一篇文章说到 cgi 写的网页不能被搜索引擎搜到,也不太明白
    realpg
        25
    realpg  
    PRO
       Nov 12, 2015
    做一个 http basic auth ,认证提示是 密码是 123 ,密码是 123 即可
    zhanlucky
        26
    zhanlucky  
       Nov 12, 2015
    所有页面的<head>里加上 noindex 标签:
    <meta name="robots" content="noindex">
    不过注意,网站的 robots.txt 不能屏蔽搜索引擎,不然爬虫永远抓不到这个标签
    ajan
        27
    ajan  
       Nov 12, 2015
    int64ago
        28
    int64ago  
       Nov 12, 2015
    AngularJS

    or

    页面直接生成 SVG ,体验其实也很好
    gimp
        29
    gimp  
       Nov 12, 2015
    后台生成图片,返回。
    dphdjy
        30
    dphdjy  
       Nov 12, 2015
    想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~
    sneezry
        31
    sneezry  
       Nov 12, 2015   ❤️ 4
    penjianfeng
        32
    penjianfeng  
       Nov 12, 2015
    @sneezry 好主意,赞一个!
    hei1000
        33
    hei1000  
       Nov 12, 2015
    存在本地吧
    learnshare
        34
    learnshare  
       Nov 12, 2015
    Robot 规则
    caixiexin
        35
    caixiexin  
       Nov 12, 2015
    放点能被 GFW 认证的信息,然后国内各大搜索引擎就屏蔽了。
    再放点 18x 的东西,谷歌搜索默认也不显示了
    =。=
    lenovo
        36
    lenovo  
       Nov 12, 2015
    leavic
        37
    leavic  
       Nov 12, 2015
    内容全部用 javascript 呈现
    Tink
        38
    Tink  
    PRO
       Nov 12, 2015 via iPhone
    全站 ajax 可以
    blahgeek
        39
    blahgeek  
       Nov 12, 2015 via iPhone
    为什么没有人说验证码呢?
    hqs123
        40
    hqs123  
       Nov 12, 2015
    这个很难做到把...
    WenJimmy
        41
    WenJimmy  
       Nov 12, 2015
    @caixiexin 哈哈哈
    bk201
        42
    bk201  
       Nov 12, 2015
    既然你自己的限制 ip 访问好了
    Shunix
        43
    Shunix  
       Nov 12, 2015
    @fengyqf 又碰见老熟人了
    Felldeadbird
        44
    Felldeadbird  
       Nov 12, 2015
    @kindjeff ajax 返回数据,谷歌照样抓。 太小看现在的技术了
    Smilecc
        45
    Smilecc  
       Nov 12, 2015
    @leavic Google 现在的技术已经可以爬到这种站点了
    ilililili
        46
    ilililili  
       Nov 12, 2015
    @dphdjy 这么有意思,啥网站
    dphdjy
        47
    dphdjy  
       Nov 12, 2015
    icon
        48
    icon  
       Nov 12, 2015
    @sneezry 这个看起来挺简单 这个方法有用吗
    hantsy
        49
    hantsy  
       Nov 12, 2015
    添加 robox 在 HTTP Server 。。。
    hantsy
        50
    hantsy  
       Nov 12, 2015
    @int64ago AngularJS 就我的经验看,只有百度蠢,解析不了指令,做 SEO 需要额外的步骤。其它的 Google , Yahoo , Bing 不需要任何设置都一样爬得出来。
    hantsy
        51
    hantsy  
       Nov 12, 2015
    @kindjeff 现在针对 Ajax , SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。
    vmebeh
        52
    vmebeh  
       Nov 12, 2015 via Android
    主页用 js 跳转一下
    flowfire
        53
    flowfire  
       Nov 12, 2015
    除了 ban ip 之外,其他的都是防君子不防小人的做法。
    伪装 UA 又不是什么很难的事
    fengyqf
        54
    fengyqf  
       Nov 12, 2015
    @Shunix 圈子太小,逃走。。。
    ericls
        55
    ericls  
       Nov 13, 2015
    放到 tor 里
    lenovo
        56
    lenovo  
       Nov 14, 2015
    昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫, Serf 是 pagespeed 的 UA

    Options -Indexes

    SetEnvIf User-Agent "^Mozilla" good_UA
    SetEnvIf User-Agent "^Serf" good_UA

    <Limit GET HEAD POST>
    order deny,allow
    allow from env=good_UA
    deny from all
    </Limit>
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3164 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 129ms · UTC 14:32 · PVG 22:32 · LAX 07:32 · JFK 10:32
    ♥ Do have faith in what you're doing.