蜘蛛抓取页面的时间为什么在日志中看不到图片，ccs,js,等的请求？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4238 天前的主题，其中的信息可能已经有所发展或是发生改变。

查看日志，看百度蜘蛛的抓取只能看到网址返回了200，但是这个网址中的图片等信息为什么没有日志，难道是根本没有访问这个页面？如果是在浏览器中访问页面的话，应该是图片等信息都有请求的日志记录的啊。这是怎么回事？

日志

页面

抓取

7 条回复 • 1970-01-01 08:00:00 +08:00

lichao

2013-04-08 18:13:18 +08:00

蜘蛛只抓取 HTML，图片以及，CSS， JavaScript 抓取了也没有用，所以不抓

soho176

2013-04-08 18:16:39 +08:00

@lichao 但是为什么在日志中看不到图片请求的日志，只有网址的请求日志，这个网址上是有图片的，对这个网址进行了访问按说应该图片也要产生请求的啊，难道是蜘蛛的请求只返回html 代码，不返回其他的吗？

CoX

2013-04-08 18:18:29 +08:00

@soho176 蜘蛛抓取页面，不会对页面解析，所以不会请求图片的

cloudzhou

2013-04-08 21:49:31 +08:00

@soho176 你要理解http协议，比如使用 curl ，wget 来获取页面，那么不会访问页面上的js和img的

likexian

2013-04-08 23:08:59 +08:00

一般来说蜘蛛只读页面html，不读引用的其它文件，但google soso这些蜘蛛都会读css

dorentus

2013-04-09 01:20:47 +08:00

其实浏览器的话，假如我把样式和脚步都禁掉，然后访问你的页面，也是不会去下载 HTML 里面外链的 CSS 和 Javascript 等资源的。

最基本的搜索引擎蜘蛛，一般就是抓取下页面（HTML），简单解析一下，找出里面的到其它页面的链接，然后再去抓这些页面（HTML），如此反复。

至于 Google bot，假如我没记错的话（某年应该有个新闻提到的），现在它应该甚至都会去把 JS 抓下来执行一下，以更好地分析某些前端脚本比较复杂的页面。。。

dorentus

2013-04-09 01:24:47 +08:00

说到图片蜘蛛，它的抓取时机并不一定和网页的蜘蛛同步的。

比如 google bot 抓取了你的一个页面，发现里面有几张图片，它应该会把这些图片记为要抓取的，告知 google image bot，然后 google image bot 会在自己觉得合适的时机去抓取这些图片（假如它认为你的页面优先级不高，甚至会很长时间都不去抓）。

这样应该可以解释为什么你只在日志里面集中看到了网页被抓取了，而图片没有。