V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
richiefans
V2EX  ›  编程

对于新内容监控的程序,面临大量去重计算如何实施比较好?

  •  
  •   richiefans · Aug 10, 2012 · 2912 views
    This topic created in 5015 days ago, the information mentioned may be changed or developed.
    需要做大量的内容页面进行监控
    主要是方便了解各网站最新内容的 没有rss
    大概设想是准备监控页url列表
    定期抓取urlhtml 遍历所有a节点 和数据库内的url做比对 如果以前抓取过该链接即视为重复 数据量小没什么问题 用mysql来存储 判断的时候直接where url = alink 如果存在记录就是重复
    如果数据量过大 如何解决?

    或者这种程序有什么现成的解决方案吗?

    大概url列表过万,监控频率按小时差不多
    2 replies    1970-01-01 08:00:00 +08:00
    richiefans
        1
    richiefans  
    OP
       Aug 10, 2012
    不需要采集文章内容 只需要了解最新的内容link and title即可 也就是抓取到列表就可以了
    richiefans
        2
    richiefans  
    OP
       Aug 10, 2012
    对url 进行md5 之后匹配是不是会性能好一些
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2882 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 07:21 · PVG 15:21 · LAX 00:21 · JFK 03:21
    ♥ Do have faith in what you're doing.