如果特征种类过多,或者是数量级的,可以不 onehot 吗,还是需要分类
如果大多数都是数量级的,是否可以直接扔进模型呢,还是要做个标准化
如果大多数都是数量级的,是否可以直接扔进模型呢,还是要做个标准化
1
cclin Nov 25, 2020 via Android
举个例子,你用 l2 距离,北京是 0,上海是 1,广州是 2,不做 onehot 意味着在这个维度广州和北京距离是广州到上海的二倍,然而实际上他们的距离应该相同
|
2
galileo1214 OP @cclin 类型过多会离散化
|
3
levylll Nov 25, 2020
图省事儿可以做特征 hash,压缩特征到同一个 hash 空间
|
4
Escapist367 Nov 25, 2020
有的模型不需要 one-hot
|
5
TimePPT PRO one-hot encoding 不是万能的,这些分类变量编码方法你值得拥有
https://www.jiqizhixin.com/articles/2020-09-16-6 机器学习中的特征工程总结! https://mp.weixin.qq.com/s/RgSejEbxwhnFUKR2POmqmg 一文讲解特征工程!经典外文 PPT 及中文解析 https://mp.weixin.qq.com/s/GWMZ1jwbchE8O0r6EduYtQ |
6
galileo1214 OP @TimePPT #5 谢谢
|
7
TimePPT PRO |