关于爬虫监控网页的一个困惑

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3613 days ago, the information mentioned may be changed or developed.

目前我用 md5 值去监控网页是否更新，但是这个涉及一个问题，就是每次都需要下载完成网页，目前我 DB 有 200 万 URL 按这个方法去更新网页，每次都要重新抓取这 200 万网页实在太慢了（而且还有目前还有增量），有什么好的办法可以更好的监控网页是否改变吗？

Supplement 1 · Jul 22, 2016

大家想法基本上是基于权重算法去刷，除了权重以外还有什么可以补充的吗?

Supplement 2 · Jul 26, 2016

整理了一下大家的想法，核心还是构建一个自己的权重算法，主要从这么几个方向： 1.根据last-modify-date content-lenguht这两个字段 2.提取目标内容做一个指纹 3.抓取效率改进,

感谢大家的热心帮助，我大概花一周时间实践后发一个demo出来

网页

监控

md5

更新

36 replies • 2018-09-20 21:48:08 +08:00

shiny

PRO

Jul 22, 2016

有的内容有 etag 和 last-modified 可以使用；
并发抓取；
云服务器弹性分配资源来抓取

爬虫本来就是费服务器的东西，可以考虑按网站权重分配爬虫资源。

shiny

PRO

Jul 22, 2016

用 md5 摘要可能不是很好的办法，因为略微细小的变动就会认为是全新的页面（如果你需要的是正文的话）

SlipStupig

Jul 22, 2016

@shiny last-modified 这个不是特别可靠，我主要还是抓取电商这类，他们都有 cdn ， cdn 每天会全站更新 last-modified 这个字段，没有什么用，权重这块我考虑过了，但是没想好怎么弄

liangmishi

Jul 22, 2016

赞成按网站权重分配爬虫资源，经常检测到更新的网站就多去几次。

shiny

PRO

Jul 22, 2016

@SlipStupig 此外，部分网站会定时更新，可以用算法检测，能够节约带宽。

Actrace

Jul 22, 2016

2 亿级路过。。。你要做的这个其实已经相当深入了。
额外增加一个更新频率的字段用来生成爬取队列，不常更新的在多次爬取后延后处理就行了，整个系统的资源使用率会下来一部分（虽然一开始还是需要一定的资源）。

wannianma

Jul 22, 2016 via iPhone

记录更新时间，更新频率越低，相应的降低爬取频率！

SCaffrey

Jul 22, 2016

@wannianma 如何判断是否更新了呢……？

wannianma

Jul 22, 2016 via iPhone

@SCaffrey 记录上次更新时间。如何判断是否更新，因网页而异。大体思路就是，如果当前网页上次更新时间距离很久，爬取权重较低，当然不是不爬，爬取后未更新，最后更新时间距离距当前时间更久，爬取权重更低，根据爬取权重决定爬取频率。思路是这样，细节还要思考

SlipStupig

Jul 22, 2016

@shiny 算法能提个方向么？

cyang

PRO

Jul 22, 2016

恐怕很难，即便 Http 头里有缓存标记那么也至少要 Get 一次吧？你不想下载网页就想知道网页是否更新不觉得矛盾？除非被爬取站给个 API ？

ytmsdy

Jul 22, 2016

只能设置重新抓取的频率了，无论什么监控算法，前提就是要把网站的信息爬下来对比才知道。

SlipStupig

Jul 22, 2016

@cyang 头部还好， GET 请求一下就返回一个头部就完事了，内容就大了少的 2kb ，大的几十 kb ，缓存标记基本上没什么作用

knightdf

Jul 22, 2016

只能自己记个更新时间然后按频率更新

tabris17

Jul 22, 2016

把网页根据更新频率标注等级

mafic

Jul 22, 2016

@Actrace 更新频率的话是人为更新不知道咋处理，看到有定时处理的百万级数据不知道靠谱不

Comdex

Jul 22, 2016

@wannianma
@SlipStupig 如何低成本地判断网页有了不小的更新？一般只关注网页的正文核心内容，假设网页中带有广告文字实时更新的话这样的更新无意义。。。

SlipStupig

Jul 22, 2016

@Comdex 去猜测正文内容变化？

Comdex

Jul 22, 2016

@SlipStupig 提取正文再判断成本很高啊，现在提取正文正确率也还不行啊，所以关注点是网页有多少内容变化了的，这个不知咋解决

SlipStupig

Jul 22, 2016

@Comdex 正文预测这块我做过，准确率还不错，反而是更新多少这个概念比较虚

JoeShu

Jul 22, 2016

提供一个思路，可以用 HEAD 方法请求网页的头部信息，可以判断 content-length 大小的变化。从直觉上看，网页内容变化了， content-length 大概率会变化。

SlipStupig

Jul 22, 2016

@JoeShu 这个准确性不行吧

yutian2211

Jul 22, 2016

@JoeShu HEAD 方法出的结果可作为一个参考值，如果无变化，延后抓取

SlipStupig

Jul 23, 2016

@yutian2211 出什么结果作为参考？

FindHao

Jul 24, 2016

他们的网页有 site map 吗，比如类似我这个。。
http://www.findspace.name/post.xml

mafic

Jul 24, 2016

楼主怎么解决跪求解决方案。现在同样遇到此问题

ezreal

Jul 24, 2016

咦，我也在做这东西。

lancemoon

Jul 24, 2016

转成图片，进行相似计算呢
或者文字的也是同样的道理

SlipStupig

Jul 25, 2016

@lancemoon 网页转成图片我不知道有什么意义，文字的话还不是得下载完成所有的内容，进行相似度计算比 hash 计算更慢啊！

SlipStupig

Jul 25, 2016

@mafic 目前考虑设计一个权重算法用然后用 hash 一致性去调度多个 worker

SlipStupig

Jul 25, 2016

@FindHao 没有啊！

Jul 25, 2016

我给你分析一下这个问题:
首先网页是否修改，你有两种方式获知，一种是网页的在修改的时候主动发出一个通知告诉你，另一种是查询网页和历史纪录比较，得知是否修改。如果你是网页的拥有者，那么在网页修改的时候加一个触发机制通知你就行；如果你不是，那么就只有老老实实轮询。
如果你的需求是必须监控每一张网页的修改，那么就需要不断改善你的爬取性能，除了挨个爬取之外别无他法。
如果并不需要，那么你可以选择性轮询，对于修改频繁的网页，你查询频率调高一些，对于修改不频繁的网页，查询频率调低一些。可以写一个函数，用于评估网页修改是否频繁，然后以此分配爬取频率，争取最大化利用你有限的爬取资源。
对于网页是否修改，这个是你自己定义，哪种程度的内容改变算“修改”，需要你自己判断

yutian2211

Jul 26, 2016

@SlipStupig content-length 如果变化了，正常抓取，如果没有变化，延后抓取，当然再辅助于权重设计

SlipStupig

Jul 26, 2016

@yutian2211 我整理一下

Wongzigii

May 26, 2017

@SlipStupig 求分享

flynaj

Sep 20, 2018

curl -I 参数，头没有变化基本内容不会变