Scrapy 断点续爬

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 598 days ago, the information mentioned may be changed or developed.

使用 scrapy 框架爬一些数据，大概上千万，但是是不是的会出现问题，导致中断，不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表，然后进入详情页抓取新闻内容。

感谢

2 replies • 2024-09-18 14:04:58 +08:00

NoOneNoBody

Sep 18, 2024

你没有记录已经爬过的 link 么？重启任务得到 link 的时候去掉爬过的就是了

Phant0m

Sep 18, 2024