PCA 之前要先对数据进行
A 、均值化(每个样本减去均值,使样本均值变成 0),
B 、然后标准化:每个样本数据除以标准差,样本数据的标准差变成 1
A 、比较好理解,没有 1 、 就无法将求主成分问题转化为线性代数的求协方差矩阵二次型表达式极值的问题。但是 B 、的作用是什么呢?他只不过会使协方差矩阵变成相关系数矩阵。可是变成相关系数矩阵有什么用呢?或者说不用相关系数矩阵求“最大方差”,就用协方差矩阵,难道不能找到最大方差的第一主成分方向么?
1
PromethiumL 2022-05-04 11:08:45 +08:00 1
如果数据带单位,各维度的 range 可能差距很大,就会导致协方差矩阵的特征向量长度可能相差很大。
这种情况下投影到主成分方向上后,总共解释的方差就不能达到最大,某一些主成分本来解释的方差没能够体现出来。 (我去复习了一下这个回答 https://stats.stackexchange.com/a/69159/36229 |