需要做大量的内容页面进行监控
主要是方便了解各网站最新内容的 没有rss
大概设想是准备监控页url列表
定期抓取urlhtml 遍历所有a节点 和数据库内的url做比对 如果以前抓取过该链接即视为重复 数据量小没什么问题 用mysql来存储 判断的时候直接where url = alink 如果存在记录就是重复
如果数据量过大 如何解决?
或者这种程序有什么现成的解决方案吗?
大概url列表过万,监控频率按小时差不多
主要是方便了解各网站最新内容的 没有rss
大概设想是准备监控页url列表
定期抓取urlhtml 遍历所有a节点 和数据库内的url做比对 如果以前抓取过该链接即视为重复 数据量小没什么问题 用mysql来存储 判断的时候直接where url = alink 如果存在记录就是重复
如果数据量过大 如何解决?
或者这种程序有什么现成的解决方案吗?
大概url列表过万,监控频率按小时差不多

