首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
PHP
如何用程序实现检测不更新的网站?
tianxiacangshen
·
2017-11-22 18:27:18 +08:00
· 1825 次点击
这是一个创建于 2560 天前的主题,其中的信息可能已经有所发展或是发生改变。
不更新网站比如:
http://www.123cha.com/
http://www.w3school.com.cn/
一堆网站,怎么不一个个打开,而检测这个网站不是经常更新的站?左思右想不得其法,自己想的办法比如:
1、连续几天抓内容,然后去掉网页头尾作对比,然后检测正文部分是否有大段文字,如果没有则是这样的网站;
2、连续几天抓内容,然后去掉网页头尾作对比,然后主体内容主要成分是 ul li/ol li 则可能是这样的站;
3、连续几天抓内容,然后去掉网页头尾作对比,如果有些字段或者句子是固定的,那么可能是这样的网站。
三种方法貌似都不严谨,不太可行,所以和大家讨论一下。
去掉
网站
检测
网页
2 条回复
•
2017-11-23 00:49:58 +08:00
1
wsy2220
2017-11-22 18:32:56 +08:00
1
提交到
https://visualping.io/
看多久通知一次
2
cy97cool
2017-11-23 00:49:58 +08:00 via Android
@
wsy2220
有类似的开源实现嘛?
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
1033 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms ·
UTC 20:41
·
PVG 04:41
·
LAX 12:41
·
JFK 15:41
Developed with
CodeLauncher
♥ Do have faith in what you're doing.