1
yfdyh000 2013-05-28 02:55:54 +08:00
|
2
marguerite OP @yfdyh000 站长工具让我认证,可是我把认证文件放到 forum.suse.org.cn 它就说认证不成功云云
|
3
yfdyh000 2013-05-28 21:04:40 +08:00
@marguerite https://forum.suse.org.cn/bdsitemap.txt 现在是403 Forbidden
|
4
lemonda 2013-05-28 21:09:25 +08:00
和phpbb没关系吧,www.ultrakvm.com marguerite.su 都没收录,原因应该是用了https
|
5
marguerite OP @yfdyh000 等会儿,是一定要先有站长工具,然后才能有爬虫过来?
|
6
marguerite OP @lemonda 不可能,我 ssl 刚上两天,之前它干嘛去了...
|
7
yfdyh000 2013-05-29 03:14:03 +08:00 1
@marguerite 不是,只是让你用工具查查原因。现在403当然认证不成功。
|
8
marguerite OP @yfdyh000 权限,它是 root 权限不是 nobody:nogroup...资深 Linux 开发者犯这种二也...
|
9
lemonda 2013-05-29 11:43:25 +08:00 2
@marguerite
由于上面写的是“后台显示从未来过” ,而站点的外链除了一个2011年以外,大部分是今年4月份左右才有的。所以想确认下问题是百度蜘蛛没来爬过还是爬过但没收录?可以从log查看,IP 类似 123.125.71.* 如果通过 http://zhanzhang.baidu.com/sitesubmit/ 提交过网址,查看提交日期后几天log即可 如果是没来爬过,昨天百度抓取异常工具升级版上线了,刚好可用上。 如果是爬过但没收录,可以按可能原因建立些单页来排除,下面是一些排查优先级低的因素。 PHP原因:之前用phpbb建过站,ubuntu论坛也是用phpbb,百度也没道理因为没滥用的建站软件不收录站点。 IP段原因:同IP段 www.ikde.org 收录正常 |
10
marguerite OP @yfdyh000 亲,权限已改,现在能访问 bdsitemap.txt 了,也更新文本了,但是站长工具依然报错无法认证。
|
11
marguerite OP @lemonda 我去瞧瞧 nginx.log
|
12
marguerite OP @lemonda 没提交 sitemap,因为站长工具报错,但是在百度提交入口那边提交网站了。
grep -r "Baidu" ./access.log 220.181.108.160 - - [30/May/2013:02:12:09 -0400] "GET /viewtopic.php?t=100&p=699 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 123.125.71.23 - - [30/May/2013:02:50:32 -0400] "GET / HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.152 - - [30/May/2013:03:18:48 -0400] "GET /viewtopic.php?t=134&p=1030 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.141 - - [30/May/2013:03:52:08 -0400] "GET /viewtopic.php?t=157&p=1870 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 123.125.71.116 - - [30/May/2013:04:25:28 -0400] "GET /viewtopic.php?t=195&p=2233 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.90 - - [30/May/2013:05:32:08 -0400] "GET /viewtopic.php?t=271&p=2295 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 就来这么几次,这 Log 我看不懂哎 |
13
lemonda 2013-05-30 21:05:12 +08:00
@marguerite 有来爬但没收录,去掉SSL后等一段时间吧。
|
14
marguerite OP @lemonda ssl 肯定不能去哈。我去问问我们自己的技术怎么回事
|
15
binux 2013-05-31 12:10:13 +08:00
我觉得单纯是因为抓不了https。。
|
16
zhttty 2013-05-31 12:59:48 +08:00 1
@marguerite
你可以单独建部分标题索引静态页面出来等着爬 |
17
marguerite OP |
18
alphamm 2013-06-19 10:16:50 +08:00 via Android
度娘完全不鸟https。
不过虽然号称不收录https,我全https站还是被收了个首页。 |
19
lemonda 2013-06-20 12:31:07 +08:00
@marguerite 首页已收录
|
20
marguerite OP @lemonda 因为我不强制 HTTPS 了...而且站长工具完全是废柴嘛,唯一有用的 sitemap 提交好像还是邀请制的。
|