已知用户访问量的情况下，用什么算法区分爬虫用户和普通用户？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2521 天前的主题，其中的信息可能已经有所发展或是发生改变。

通过服务器日志，可以追踪到用户每次请求的日志，格式是
2018-01-16 16:00:01 X 接口 A 用户请求
2018-01-16 16:00:02 X 接口 A 用户请求
2018-01-16 16:00:03 X 接口 B 用户请求
2018-01-16 16:00:04 X 接口 A 用户请求
2018-01-16 16:59:59 X 接口 B 用户请求
...
类似这种，最简单的方式就是给个统计上限 N，1 小时超过 N 次，则判定为爬虫用户

但这样，N 的值就不好取，取小了，会误封普通用户，取大了，会少封爬虫用户

想了想还有一个可以参考的，就是访问的频率（密集程度），比如 A 在 1 分钟请求了 N-1 次，和 B 在 1 分钟内请求了 N+1 次，按道理 A 为爬虫的概率应比 B 大得多

应该怎么将这个转换为算法 /逻辑？或者有什么好用简单的方法？

谢谢！

2018-01-16

请求

用户

接口

3 条回复 • 2018-01-16 16:47:51 +08:00