首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
›
问与答
网页定时爬取的问题
Comdex
·
2014-09-09 16:07:31 +08:00
via Android · 2700 次点击
这是一个创建于 3729 天前的主题,其中的信息可能已经有所发展或是发生改变。
请教一下大家,假如我要做一个功能让别人输入一个网址和关键词,然后抓取关键词的数据,由于这些网页可能是不定时更新的,那自己写的爬虫该如何采取策略定时抓取更新?假设有多个用户要定时抓取更新的数据,这些数据一般一天更新一次,我是在用户每确定一个任务就开启一条线程每隔一天监控网页是否更新还是先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务?
抓取
定时
网页
5 条回复
•
2014-09-10 19:00:44 +08:00
1
icedx
2014-09-09 18:17:16 +08:00
1
先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务
2
Comdex
OP
2014-09-09 23:28:18 +08:00
@
icedx
这样效率更高?就是在定时器触发时开启多线程处理任务列表中的任务这样效率更好?这样当任务多时同时执行压力不会很大么?
3
icedx
2014-09-10 10:58:19 +08:00
@
Comdex
你这不是大的项目 基本不用担心服务器压力
反而是定时器更方便管理
4
Comdex
OP
2014-09-10 11:46:00 +08:00 via Android
@
icedx
主要是担心cpu占用爆升导致机器重启锁定
5
icedx
2014-09-10 19:00:44 +08:00
@
Comdex
你试试不就知道
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2810 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms ·
UTC 09:38
·
PVG 17:38
·
LAX 01:38
·
JFK 04:38
Developed with
CodeLauncher
♥ Do have faith in what you're doing.