jakeyfly
V2EX  ›  问与答

请容我用最简单的语言描述一下应用场景,大佬们来评定下是否不适合用 scrapy

  •  
  •   jakeyfly · Feb 28, 2018 · 1264 views
    This topic created in 2997 days ago, the information mentioned may be changed or developed.

    每天早上 10 第一次爬取会获取一个列表,里面有 200 多个 ID。

    每个 ID 都可以构造 20 个跟这个 ID 有关系的请求地止,然后按一定的顺序爬取 20 个地止的数据。

    之后就是对这 200 个下 每个 ID 下的 20 个构造的 URL 进行监测有更新就爬取更新的数据(因为是以表格的形势呈现的,最上的就是最新的,只要保存上次获取的条数比如用 XPATH 的 COUNT,然后本次爬取的条数只要比上次的多,就爬取多出来的几条。)

    这 200 个爬取条目 每个都有停止更新的时间。最终还要实现,以停止更新时间为准。在这之前半小时爬一次。停止前 10 分数爬一次。过了时间就去掉这个 URL 不爬了。就是超过时间就会把 URL 去掉。最后列表为空后爬虫就停止。

    以上应用场景 是否要自己定制,scrapy 不太适合?

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3856 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 10:24 · PVG 18:24 · LAX 03:24 · JFK 06:24
    ♥ Do have faith in what you're doing.