现在有一个广告点击的项目需要对用户进行聚类,但是特征特别少,只有这么几项:
ad_id, user_ip, click_count, click_date
1
, 1.1.1.1
, 100,
, 2019-12-13
1
, 1.1.2.1
, 90
, 2019-12-13
3
, 1.1.2.1
, 90
, 2019-12-13
2
, 1.2.2.1
, 92
, 2019-12-14
...
基于以上特征能对用户 IP 进行聚类吗?
1
Macolor21 2020-01-10 00:03:16 +08:00 via iPhone
广告本身肯定包含一定特征,如游戏,商品等分类,根据广告特征可以提取特定人群,
另外 ip 地址可以拿到一定地域,根据地域又可以再次提取 |
2
imn1 2020-01-10 00:45:22 +08:00
数据类别不足
广告分一下类,ip 除了地域外没太大用,除非你有办法拿到 ip 和具体个人的联系(例如年龄、收入之类) 日期也是粗数据,日期+时间或者有点用 建议研究一下浏览器指纹,追踪用户实现 timeline 更加有用 |
3
yuikns 2020-01-10 01:28:49 +08:00
对用户处理,先从简单的开始试试嘛。
假设每个 ip 为一个用户,id 为 item,然后做个 cf 看看效果再做打算呗 https://blog.argcv.com/articles/3886.c 然后再构建各种直方图分析下分布。再尝试升降下维度 |
4
SlipStupig OP @imn1 目前数据只有这么多,短时间内不可能增加
|
5
SlipStupig OP @yuikns 跟我想法有相似之处,这个是不是能用 KNN 尝试做 CF 呢?
|
6
yuikns 2020-01-10 10:49:45 +08:00 via Android
@SlipStupig 感觉这个和 ranking 相关。knn 尝试下 embedding 或许也可以看看效果。
|
7
JerryCha 2020-01-10 16:55:20 +08:00
我觉得我这运营商层面的 NAT 你压根没法根据 IP 地址辨别用户,一大波宽带用户共用一个公网 IP
|
8
SlipStupig OP @JerryCha 这个问题虽然很难但并不是无解,你就当我已经解决了,我们先聚焦在问题解决上
|