这是一个创建于 3514 天前的主题,其中的信息可能已经有所发展或是发生改变。
鄙站使用phpcms系统搭建。
下面有若干二级域名,例如
a.domain.com/
b.domain.com/
每个二级域名下都有若干栏目和文章,进行了伪静态处理(nginx),例如
a.domain.com/category1/1.shtml
b.domain.com/category2/2.shtml
后台程序做过二次开发,实际上是会忽略url里“栏目”这个属性的(就是上面例子里的 category1,category2);只会处理后面的数字id去查找数据库里对应的记录,然后解析并显示出来。也就是说
a.domain.com/category1/1.shtml
和
b.domain.com/category2/1.shml
会读取同样的“内容”(正文区域),但是显示的“模板”会不一样(除了正文以外的html)
最近发现一个奇怪的问题:百度会收录“不存在”的链接:
例如本来我数据库里有这样一条记录
b.domain.com/category2/2.shml
意思是id=2的文章,属于站点b下的category2栏目。
但是百度会收录成
a.domain.com/category1/2.shml
也就是说,它记录了错误的站点和栏目
我检查过了,前台页面里根本就没有这样的“错误”链接。
那么百度这种混乱的收录,到底是怎么来的呢? 蜘蛛会去尝试这种“没有身份证”的链接吗?(虽然实际上可以打开,但根本没有任何地方可以找到入口)