应用场景是这样:有一个爬虫系统,各种网站上爬了很多网页。但客户删除了一些网站上的帖子,现在需要重新爬一次,把客户删帖的帖子找出来。这种删帖的情况,好像没有标准。各个网站,论坛会提供各种的 404 方案,甚至是找人。请教各位大侠,有什么办法能怎么准确的找出删帖
1
binux 2016-05-03 02:30:04 +08:00
1. status code ,即使是找人,返回码一般也是 404 ,不然对 SEO 不利
2. 比内容 |
2
pimin 2016-05-03 03:17:59 +08:00 via Android
按之前爬的网址重新去爬,只发送 HEAD 请求就可以了。
|
3
ysdj 2016-05-03 07:10:47 +08:00
出现重复次数最多的网页为 404
|
4
Cu635 2016-05-03 10:16:13 +08:00
我还以为你要找出被删除的帖子然后保留呢……
|
8
Hxai11 2016-05-09 10:41:34 +08:00
404
headers content |