V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
UIHIHUHIU
V2EX  ›  程序员

数据挖掘特征值是什么意思,有没有关于数据挖掘的那些专业名词解释汇总

  •  
  •   UIHIHUHIU · 187 天前 · 1270 次点击
    这是一个创建于 187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在学数据挖掘,有没有关于数据挖掘的那些专业名词解释,比如啥特征值,变异系数,皮尔曼系数啥的,有些完全看不懂,也不教,问 chatGPT 回答不清晰

    11 条回复    2024-05-20 21:01:34 +08:00
    snylonue
        1
    snylonue  
       187 天前
    看上去像线性代数和统计的术语
    lrigi
        2
    lrigi  
       187 天前 via iPhone
    买本数据挖掘的书看看,要不就问 gpt ,gpt 要是回答不清楚这么基础的问题 openai 可以关门了
    LXchienne
        3
    LXchienne  
       187 天前
    可以补补基础,统计学习,数理统计这些
    Pteromyini
        4
    Pteromyini  
       187 天前   ❤️ 1
    我感觉你应该补的是数理基础,比如线性代数、概率论
    UIHIHUHIU
        5
    UIHIHUHIU  
    OP
       187 天前
    正在学概率论,线性代数好久没看了,不过确实好像是这里面的词
    ufo5260987423
        6
    ufo5260987423  
       187 天前
    特征值一般是矩阵的特征值,和特征向量这个概念是有关的。在数据分析的一些场景下,特征值能够表示一些因素的强度、相关性等等。
    皮尔曼系数,如果没记错是描述显著性、相关性的东西。
    变异系数不知道是哪个傻逼翻译的,一查是 coefficient ,是标准差和均值的比,用来描述数据的 variance 。

    你后面这两个都是频率派统计的东西,我个人更多用贝叶斯派的东西。

    前面有位仁兄说买本数据挖掘的书看,well ,绝大多数数据挖掘的书都不咋样。
    然后,如果你是要在具体场景应用数据挖掘,那么知道一些名词背下来,把它和业务强行关联起来就行了。数据挖掘需要科学的管理和成熟、稳定的业务模式,我国绝大多数企业比草台班子都不如的管理水平,谈不上业务模式,更谈不上有充分的数据进行挖掘。

    业务三天两头拍脑门的,别妄图机械降神。
    vivisidea
        7
    vivisidea  
       187 天前
    这个问题 gpt 回答不清晰?不科学,名词解释算是 AI 最擅长的领域了好吧


    - 大概率是你问法不对
    - 你不理解 gpt 回答的内容,可以追问,可以让它给你举例说明等等
    - 用 gpt4
    UIHIHUHIU
        8
    UIHIHUHIU  
    OP
       187 天前
    @ufo5260987423 主要还在上学,对这个方向比较感兴趣,想自己学习,但是还没有什么系统的学习规划,不知道有什么前项课程,从哪里开始学
    RichardCheung
        9
    RichardCheung  
       187 天前
    特征值:看前后文吧,一般有个矩阵的,比如协方差矩阵?

    变异系数:好像是标准差与均值的比值

    皮尔曼系数(Pearson 相关系数):-1 到 1 ,绝对值越趋于 1 越相关,符号代表正负相关。
    ufo5260987423
        10
    ufo5260987423  
       187 天前
    @UIHIHUHIU #8 囧
    数学你得补课啊,线性代数和概率论必须得学会
    然后结合具体场景,往往还有各种假设,和你就业方向相关。

    我 15 年本科毕业,单纯数据挖掘还有点意思,18 年研究生毕业的时候就感觉不行了。
    Philippa
        11
    Philippa  
       187 天前 via iPhone
    特征值是指某个维度的数值,可以是连续和不连续的(统计学第一课),数据分析本质上就是不同维度的组合对事情的解释。

    pearson 和 spearman 都是相关系数,pearson 是用数值计算相关系数,但是会对数值很敏感,尤其是数据量少的时候。spearman 是先排序再用名次计算相关性,这个就能避免数值敏感,但当然也默认了数据是均匀的。spearman 类似于非连续数据的 one hot encoding 。

    所以你看这东西很简单,两三下就能解释清楚了。这个基本上不用去看什么书,我更建议从实际例子出发,捉住重点,再回头看书了解细节。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2827 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 13:21 · PVG 21:21 · LAX 05:21 · JFK 08:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.