V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
w2bgopher
V2EX  ›  Python

前辈们,请教一个数据挖掘中模型训练的问题

  •  
  •   w2bgopher · 2020-02-23 14:40:17 +08:00 · 1509 次点击
    这是一个创建于 1736 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我是一个这方面的小白...
    问题:导师让我把整个行业的数据训练成一个模型来进行市值的预测,这个该如何处理比较恰当?
    ex:现今我有十组数据,每组数据的维度分别为:
    第一个公司的数据(70,21)----(收集了 70 行数据,21 个特征); 前 20 个是 x 特征 最后一个是市值 y 特征
    第二个公司的数据(65,21)----(收集了 65 行数据,21 个特征);
    第三个公司的数据(68,21)----(收集了 68 行数据,21 个特征);
    每家公司的行数不同,特征数量一致,因为每家公司的上市年份不一致,以此类推....

    现将这十组数据训练成一个大模型作为行业的预测模型,这个该如何处理?
    ex:假如我要训练成一个大的回归模型。(吐槽:要是一组数组一个模型多方便呐= =)
    这里我有 2 种想法:

    1.将十组数据进行整合,以数据行数最少的公司(上市年份最迟)为基准,进行数据合并。合并成所有公司同一时间都有数据,而不存在说哪个公司在这个时间还没上市所以数据的情况。
    例如,第五组数据最少(60,21),那么进行合并的结果为(60,21,10),这样做从而导致维度扩大了,由原先的每一个时刻的只有一个特征值,现在变成了有 10 个特征值了,这样直接拿去做线性回归是不行了,这里不知道如何解决?

    2.将十组数据分别从每组数据 split 出训练数据测试数据,然后将所有的训练数据进行追加同一个数据集中,进行训练,那么这里的数据维度为 x_train=(d1.shape[0]+d2.shape[0]+...,20); y_train=(d1.shape[0]+d2.shape[0]+...,1),-----所有的训练集行数追加.这样训练出模型出来然后分别拿这十组数据的训练集来分别进行预测和评估?这样做能实现。但是我不清楚是否满足要求说的预测。

    补充:如果前辈们有好的建议的话,希望分享一下。同时也能分享一下用lstm来训练的思路。十分感谢~

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   922 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:22 · PVG 05:22 · LAX 13:22 · JFK 16:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.