关于人工智能的两个认识是否正确？

本人纯小白，如果问的不得要领，请各位多包涵。

1 、在其他条件不变的情况下（比如识别用的程序）。被识别对象越复杂，需要的训练集越多？比如要让程序识别猫（从各种图片中分别，飞机，狗，人，抽象的，写实的）需要很多训练集。但是如果要让程序识别矩形（所有图片中图片中只包括黑白两色），则需要的训练集相对于猫的训练集要少？
如果以上认识正确，现在是否有什么理论可以告诉人们。要区分多么复杂的图，大致需要多大数量的训练集？或者说训练集超过某一个临界值以后，对识别率的提升边际贡献已经很小了。有没有这样的理论？

2 、以用户分类为例，如果仅仅有用户收藏，搜索关键词，点赞的这三个因子，我对用户的分类可能只能做到 5 分（假设满分是 10 分）。那么如果再获得用户浏览每个视频的时长，哪些视频进行了评论，哪些视频进行了分享，等更多指标。那么用户的分类可能会做到更好，比如 6 分。
如果以上认识是正确的。那么在实际工作中大厂是如何进一步寻找这些指标的呢？这些指标是否已经被榨干？即现有可收集的的用户指标（不是说指标的数据量，而是说指标的种类）已经应收尽收了？除去用户数量增长和算法优化带来的边际效益。在挖掘“指标”这部分潜力还大么？

训练集

指标

识别

用户

8 replies • 2020-12-10 10:31:17 +08:00

iConnect

Dec 10, 2020 via Android

1 复杂图片不好定义，是指图片大？还是图片模糊？还是图片上物体多？人眼觉得复杂机器不一定，看起来复杂，如果学习特征明显，机器也可以很容易。“复杂”没有准确定义，自然没有“复杂”度相关的理论，可以说虚拟模型都是特事特办，人工调参。如果有对应的理论，也就是可以实现机器调参了。

2 大厂也靠“蒙”参数。蒙对了就纳入模型，梦错了下次去掉，修正模型。

hello2060

Dec 10, 2020

第一个是有的，我没实际经验只是上过 coursera，一方面是样本多少，一方面是特征集的大小。样本太多会形成过拟合，相当于电脑记住了每个样本的结果所以在训练集上完美，但是在真实世界不行，这种情况下样本继续增多样本已经没用了。吴恩达的课说了好几个指标。可以判断你是样本不够还是特征集不够

huzhikuizainali

Dec 10, 2020

@iConnect 谢谢回复。
关于 2 、也就是说增加哦“有效”指标的数量对于分类效果必定有提升。这个看法是成立的？

gimp

Dec 10, 2020

借楼请教个问题，我用指纹捺印训练后的模型（训练集的图片大概 1/10 A4 纸大小），在识别 A4 扫描后的电子档上的指纹时识别不到，需要裁剪后才能识别。

我想到的解决方案如下，不知道靠不靠谱，还有没有什么好的方式，我想做的事儿是判断扫描件上有没有指纹

1，调整训练集数据，让其跟真实的要识别的图像尺寸贴近。（暂时还没有这样的训练集样本）
2，识别前对电子档图片进行裁剪（不太确定指纹具体位置，这样的话可能需要裁剪成多份小图，识别后再计算相对坐标，似乎也不太好）

mcone

Dec 10, 2020

1. 复杂的多类问题确实需要训练数据多，逻辑是多分类问题->参数少的模型难以拟合->增加模型复杂度->需要训练数据增加，但是识别黑白两色图像的数据，不一定比彩色图少，不少模型为了省事都是 RGB 转灰度再丢进去的。
需要的数据量靠经验估+根据模型验证集性能自己调，理论也有，传统机器学习的训练数据大概是 20*C，C 是模型参数个数

2. 是的，但是也可能会下降到 4 分，就像孟德尔的豌豆一样。
人肉测，人肉调参，无他。不然大厂雇一群人一年写出来一个模型，不需要更新了，那这群人还继续养着干啥，都开了呗还省钱。

huzhikuizainali

Dec 10, 2020

@mcone 谢谢回复！
“理论也有，传统机器学习的训练数据大概是 20*C，C 是模型参数个数” ---------请问这个理论是否有中文名称？有没有哪本书对这个理论有比较深入浅出地介绍？

MinQ

Dec 10, 2020

@gimp 你所使用的算法是什么？原始分辨率是多大？模型接受的分辨率是多大？有没有预处理步骤？

mcone

Dec 10, 2020

@huzhikuizainali
Vapnik-Chervonenkis Dimension
20 这个参数是经验参数，大部分描述为 10-30