每天早上 10 第一次爬取会获取一个列表,里面有 200 多个 ID。
每个 ID 都可以构造 20 个跟这个 ID 有关系的请求地止,然后按一定的顺序爬取 20 个地止的数据。
之后就是对这 200 个下 每个 ID 下的 20 个构造的 URL 进行监测有更新就爬取更新的数据(因为是以表格的形势呈现的,最上的就是最新的,只要保存上次获取的条数比如用 XPATH 的 COUNT,然后本次爬取的条数只要比上次的多,就爬取多出来的几条。)
这 200 个爬取条目 每个都有停止更新的时间。最终还要实现,以停止更新时间为准。在这之前半小时爬一次。停止前 10 分数爬一次。过了时间就去掉这个 URL 不爬了。就是超过时间就会把 URL 去掉。最后列表为空后爬虫就停止。
以上应用场景 是否要自己定制,scrapy 不太适合?