使用 scrapy 框架爬一些数据,大概上千万,但是是不是的会出现问题,导致中断,不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表,然后进入详情页抓取新闻内容。
感谢
1
NoOneNoBody 64 天前
你没有记录已经爬过的 link 么?重启任务得到 link 的时候去掉爬过的就是了
|
2
Phant0m 64 天前
Jobs: pausing and resuming crawls
https://docs.scrapy.org/en/latest/topics/jobs.html |