littlekfcV2EX 第 27820 号会员,加入于 2012-10-08 21:23:17 +08:00 |
2013-04-11 16:06:46 +08:00 回复了 HiVPS 创建的主题 › VPS › 我们的新KVM VPS服务器即将上线,提供很多免费测试名额 |
2013-04-11 16:03:16 +08:00 回复了 soho176 创建的主题 › Python › 用python 做爬虫,抓取网站,在抓取的过程中会碰到重复的网址,随着抓取网址的越来越多,网址库越来越大,如果每次爬到网址都去网址库对比一下 是否重复,这样的结果就是效率越来越低了,有什么办法或者算法 提高过滤重复网址的效率? |