V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
marguerite
V2EX  ›  站长

Baiduspider 不爬我的 phpbb 站怎么办?

  •  
  •   marguerite · 2013-05-28 02:38:12 +08:00 via Android · 5935 次点击
    这是一个创建于 4201 天前的主题,其中的信息可能已经有所发展或是发生改变。
    唔...这站就是针对国内的。所以即使 Baiduspider 爬你 30% 流量也得由它,可问题是我这儿后台显示从未来过。

    哭死了啊。

    forum.suse.org.cn

    phpbb 论坛,有标准 sitemap。

    google 每天爬的可欢了。

    我也不知道为什么我天然屏蔽了百度。robots 和 .access 都没限制过它。是不是因为我没有 www.suse.org.cn 首页的关系啊?
    20 条回复    1970-01-01 08:00:00 +08:00
    yfdyh000
        1
    yfdyh000  
       2013-05-28 02:55:54 +08:00
    marguerite
        2
    marguerite  
    OP
       2013-05-28 17:32:25 +08:00 via Android
    @yfdyh000 站长工具让我认证,可是我把认证文件放到 forum.suse.org.cn 它就说认证不成功云云
    yfdyh000
        3
    yfdyh000  
       2013-05-28 21:04:40 +08:00
    lemonda
        4
    lemonda  
       2013-05-28 21:09:25 +08:00
    和phpbb没关系吧,www.ultrakvm.com marguerite.su 都没收录,原因应该是用了https
    marguerite
        5
    marguerite  
    OP
       2013-05-29 02:47:07 +08:00 via Android
    @yfdyh000 等会儿,是一定要先有站长工具,然后才能有爬虫过来?
    marguerite
        6
    marguerite  
    OP
       2013-05-29 02:47:57 +08:00 via Android
    @lemonda 不可能,我 ssl 刚上两天,之前它干嘛去了...
    yfdyh000
        7
    yfdyh000  
       2013-05-29 03:14:03 +08:00   ❤️ 1
    @marguerite 不是,只是让你用工具查查原因。现在403当然认证不成功。
    marguerite
        8
    marguerite  
    OP
       2013-05-29 06:45:43 +08:00
    @yfdyh000 权限,它是 root 权限不是 nobody:nogroup...资深 Linux 开发者犯这种二也...
    lemonda
        9
    lemonda  
       2013-05-29 11:43:25 +08:00   ❤️ 2
    @marguerite
    由于上面写的是“后台显示从未来过” ,而站点的外链除了一个2011年以外,大部分是今年4月份左右才有的。所以想确认下问题是百度蜘蛛没来爬过还是爬过但没收录?可以从log查看,IP 类似 123.125.71.* 如果通过 http://zhanzhang.baidu.com/sitesubmit/ 提交过网址,查看提交日期后几天log即可

    如果是没来爬过,昨天百度抓取异常工具升级版上线了,刚好可用上。

    如果是爬过但没收录,可以按可能原因建立些单页来排除,下面是一些排查优先级低的因素。

    PHP原因:之前用phpbb建过站,ubuntu论坛也是用phpbb,百度也没道理因为没滥用的建站软件不收录站点。
    IP段原因:同IP段 www.ikde.org 收录正常
    marguerite
        10
    marguerite  
    OP
       2013-05-29 18:28:31 +08:00
    @yfdyh000 亲,权限已改,现在能访问 bdsitemap.txt 了,也更新文本了,但是站长工具依然报错无法认证。
    marguerite
        11
    marguerite  
    OP
       2013-05-29 18:29:01 +08:00
    @lemonda 我去瞧瞧 nginx.log
    marguerite
        12
    marguerite  
    OP
       2013-05-30 17:44:49 +08:00
    @lemonda 没提交 sitemap,因为站长工具报错,但是在百度提交入口那边提交网站了。

    grep -r "Baidu" ./access.log
    220.181.108.160 - - [30/May/2013:02:12:09 -0400] "GET /viewtopic.php?t=100&p=699 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    123.125.71.23 - - [30/May/2013:02:50:32 -0400] "GET / HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.152 - - [30/May/2013:03:18:48 -0400] "GET /viewtopic.php?t=134&p=1030 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.141 - - [30/May/2013:03:52:08 -0400] "GET /viewtopic.php?t=157&p=1870 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    123.125.71.116 - - [30/May/2013:04:25:28 -0400] "GET /viewtopic.php?t=195&p=2233 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.90 - - [30/May/2013:05:32:08 -0400] "GET /viewtopic.php?t=271&p=2295 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

    就来这么几次,这 Log 我看不懂哎
    lemonda
        13
    lemonda  
       2013-05-30 21:05:12 +08:00
    @marguerite 有来爬但没收录,去掉SSL后等一段时间吧。
    marguerite
        14
    marguerite  
    OP
       2013-05-30 21:51:21 +08:00 via Android
    @lemonda ssl 肯定不能去哈。我去问问我们自己的技术怎么回事
    binux
        15
    binux  
       2013-05-31 12:10:13 +08:00
    我觉得单纯是因为抓不了https。。
    zhttty
        16
    zhttty  
       2013-05-31 12:59:48 +08:00   ❤️ 1
    @marguerite
    你可以单独建部分标题索引静态页面出来等着爬
    marguerite
        17
    marguerite  
    OP
       2013-06-18 14:40:10 +08:00
    @lemonda 不到一分钟前forum.suse.org.cn使用文件验证验证失败,原因:暂不支持https网站验证。

    站长工具更新了。
    alphamm
        18
    alphamm  
       2013-06-19 10:16:50 +08:00 via Android
    度娘完全不鸟https。
    不过虽然号称不收录https,我全https站还是被收了个首页。
    lemonda
        19
    lemonda  
       2013-06-20 12:31:07 +08:00
    @marguerite 首页已收录
    marguerite
        20
    marguerite  
    OP
       2013-06-21 13:47:54 +08:00
    @lemonda 因为我不强制 HTTPS 了...而且站长工具完全是废柴嘛,唯一有用的 sitemap 提交好像还是邀请制的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3230 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 13:04 · PVG 21:04 · LAX 05:04 · JFK 08:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.