V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
huzhikuizainali
V2EX  ›  机器学习

是否有书籍或论文阐述机器学习准确率与数据量、数据质量之间关系的理论?

  •  
  •   huzhikuizainali · 2022-01-10 23:54:32 +08:00 · 898 次点击
    这是一个创建于 1045 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请看下图。介绍了增加数据量对机器学习(在视频中机器学习囊括神经网络,traditional AI 在此指神经网络以外的传统机器学习方法)和神经网络识别准确率的不同效果。显然增加数据量在神经网络上可以带来更好的效果。机器学习对数据量的增加更容易钝化(曲线更早变平)。 不知道是否有文章或书籍对此问题有更深入的介绍?例如:以监督学习为例 1 、多大的数据量会成为传统机器学习与人工智能识别率的分水岭?比如图中圆圈部分,可能更少的数据量神经网络与传统机器学习的差别不大,甚至更差。 2 、传统机器学习和神经网络对训练集的兼容性是否有差别。比如训练识别猫的训练集。可能只有 10%不是猫,90%都是猫。另一种训练集猫和非猫各 50%。两种方法对不同训练集的训练效果会有明显差异么? 之所以问这个问题是因为现实中可能要满足猫和非猫各 50%那么总训练集数量就不足了。总训练集数量达标,非猫样本比例可能就比较低了。

    3 、考虑以下两种错误来衡量识别率,传统机器学习和神经网络在数据量增加后是否有更大的差异? 第一类错误:将猫划入非猫一组。 第二类错误:将非猫划入猫一组。 现实中每种错误的代价差别很大。训练集样本增加在第一类和第二类错误率上,传统机器学习和神经网络是否对训练数据量增加有不同的敏感程度?

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3207 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:15 · PVG 20:15 · LAX 04:15 · JFK 07:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.