请看下图。介绍了增加数据量对机器学习(在视频中机器学习囊括神经网络,traditional AI 在此指神经网络以外的传统机器学习方法)和神经网络识别准确率的不同效果。显然增加数据量在神经网络上可以带来更好的效果。机器学习对数据量的增加更容易钝化(曲线更早变平)。 不知道是否有文章或书籍对此问题有更深入的介绍?例如:以监督学习为例 1 、多大的数据量会成为传统机器学习与人工智能识别率的分水岭?比如图中圆圈部分,可能更少的数据量神经网络与传统机器学习的差别不大,甚至更差。 2 、传统机器学习和神经网络对训练集的兼容性是否有差别。比如训练识别猫的训练集。可能只有 10%不是猫,90%都是猫。另一种训练集猫和非猫各 50%。两种方法对不同训练集的训练效果会有明显差异么? 之所以问这个问题是因为现实中可能要满足猫和非猫各 50%那么总训练集数量就不足了。总训练集数量达标,非猫样本比例可能就比较低了。
3 、考虑以下两种错误来衡量识别率,传统机器学习和神经网络在数据量增加后是否有更大的差异? 第一类错误:将猫划入非猫一组。 第二类错误:将非猫划入猫一组。 现实中每种错误的代价差别很大。训练集样本增加在第一类和第二类错误率上,传统机器学习和神经网络是否对训练数据量增加有不同的敏感程度?