1
shikimoon 2020-01-28 19:19:28 +08:00
问题一不说了,问题二不一定总是有效
|
2
classyk 2020-01-28 19:25:21 +08:00 via iPhone
在线学习 online learning 了解一下
|
3
SlipStupig OP @shikimoon 结果是 1 和 2 我都不知道该怎么办。。
|
4
SpencerCJH 2020-01-28 20:40:02 +08:00
有请算法工程师登场 (逃
|
5
paopjian 2020-01-28 21:01:45 +08:00 via Android
线上准确率不就是接着打标签再算吗?
|
6
sethverlo 2020-01-28 21:24:29 +08:00
1. 打日志就行了嘛…
2. 看你用的是什么框架啊,有的框架不支持 continue training 的,比如说 fasttext (其实 fasttext 支持 unsupervised 的再训练,但我用的是 supervised learning |
7
SlipStupig OP |
8
SlipStupig OP @sethverlo 还有一种情况就是加入了新的样本,进行增量训练
|
9
razrlele 2020-01-28 21:43:06 +08:00 1
Q1:
可以用 AUC 来衡量离线在线指标。 Q2: 定期更新模型。 |
10
shikimoon 2020-01-28 22:00:38 +08:00 1
@SlipStupig 你这是想当然了,把识别错误的 case 加进训练集重新训练效果就能变好,那一直加 acc 不是变 100%?
|
11
Xs0ul 2020-01-28 22:43:39 +08:00 1
线上如果没有用户反馈给你标 label,没法知道预测是对是错. 不然你把这套流程移到输出之前,岂不是凭空提高了准确率
|
12
paopjian 2020-01-29 00:17:30 +08:00 via Android 1
你要想在线学习我建议走 deeplearning,不用打标签,你这也太理想化了,监督学习引入非监督变量,那怎么判错?
|
13
SlipStupig OP |
14
HankAviator 2020-01-29 00:29:41 +08:00 via Android 1
1. 看你关注的指标,AUC,lift,误分类率都可能用得上。
2. 持续训练是成本最低且现实的方案,主流企业也都是采用这个办法。样本量够大就足以生成令人满意的模型。 |
15
HankAviator 2020-01-29 00:31:07 +08:00 via Android 1
另外采用复杂算法(集合树)相对简单二分类树可能有更好的效果
|
16
HankAviator 2020-01-29 00:33:18 +08:00 via Android 1
上线模型一般都做周期性检验,然后测试环境跑一下,没问题就迭代到生产。引入尽可能多的变量也会有帮助(如果成本允许)
|
17
SlipStupig OP @HankAviator 问一个小白问题,指标该如何选择?
|
18
paopjian 2020-01-29 01:35:32 +08:00 via Android
建议看一下 Hands - On.Machine.Learning.with.Scikit - Learn.and.TensorFlow。里面的机器学习方法都有讲,你这个 70 正确率也不是太好的
|
19
Mrpasserby 2020-01-29 03:13:20 +08:00
你需要收集日志
|
20
t6attack 2020-01-29 06:27:46 +08:00
现实生产环境中,比如 预测金融市场、预测天气,都是用事实结果作为新数据持续训练的。
你这种,事实结果只能人工判断。没有其他办法。如果有,那就形成了逻辑悖论。如果有其他“非人工”方式可以知道分类结果是否准确,为什么不直接用这个方式进行分类呢? |
21
pandachow 2020-01-29 07:20:46 +08:00 1
如果线上环境没有引入用户反馈机制,那么分类器的分类效果是没有办法自动提升的。
例如广告点击这样的业务场景,给用户看若干广告,用户可以选择无视,点击,或者点击 X 关闭,进而可以通过用户的反馈 target,再把新样本放进去不断训练。所以建议结合产品和业务场景引入一个合适合理的反馈机制。 错误样本不需要重新训练,你可以手动设定他们的权重,如果是 heavily imbalanced dataset 的分类场景,建议使用 ROC & AUC (或带权重的)来作为评估。 |
22
otato 2020-01-29 09:17:41 +08:00 2
如果不靠人工能分辨对错,为什么还需要你这个系统,直接上线分辨系统啊
|
23
icylogic 2020-01-29 10:52:37 +08:00 via iPhone 1
supervised 只能持续人工标注新样本然后继续训练 /重新训练啊,你能做的只是提取出大小合理的 sample 送标注
|
24
p2pCoder 2020-01-29 14:01:25 +08:00 1
线上的业务指标和离线指标是不一样的
线上的业务指标是需要通过实验平台进行 abtest 的,比如一般的 ctr cvr,日活的变化,留存率的变化,以及总的转化,这些需要业务方确定指标 实验平台也是一个比较大的工程,具体可参考谷歌的论文 你最终的目标是通过这个分类器,使在新闻分类这个栏目下,各个新闻分类下,总的业务指标提升,比如用户 ctr,用户停留时长,用户总的点击量,平均每个用户点击量之类的指标 至于样本滚动更新,正负样本的选取,模型的例行训练,模型的滚动更新,甚至在线学习,这些又是其他很复杂的东西了 机器学习落地是一个大的系统性工程 |
25
SlipStupig OP @p2pCoder 大哥,太感谢了,能留个联系方式么,想深入交流一下,顺带表示感谢
|
26
p2pCoder 2020-01-30 13:28:32 +08:00
@SlipStupig wx:emdiZ3gx
|
27
SlipStupig OP @p2pCoder 查找不到哦 😯
|
28
p2pCoder 2020-02-01 17:43:29 +08:00
@SlipStupig base64
|