我现在是每个网站一个 start_url ,一个网站爬 1000(举个例子)个页面之后就跳到下一个网站进行爬取,
宁雨 2015/12/18 18:04:40
这种效果应该怎么实现?
我试了一种方法,就是在爬取量达到 1000 个页面之后就把这个网站的域名从 allowed_domain 中去掉,这样的效果是爬虫依然从这个网站上爬取就是会把这个网站的 url 全部忽略,有没有有经验的同学指点一下
宁雨 2015/12/18 18:04:40
这种效果应该怎么实现?
我试了一种方法,就是在爬取量达到 1000 个页面之后就把这个网站的域名从 allowed_domain 中去掉,这样的效果是爬虫依然从这个网站上爬取就是会把这个网站的 url 全部忽略,有没有有经验的同学指点一下