比如一个顺序时间索引的价格-成交量表,把每一行的成交量换为该行在最近一百行或者一固定时间段的全部成交量中所属的百分位? 因为把成交量换为百分位后应该可以极大提高数据用于机器学习的泛化能力,比如最后两次成交量为 99 手-49 手,98 手-50 手,可以统一转化为 0.85-0.25 是否还有其他更好的办法呢?
1
victorc 2022-06-15 17:32:44 +08:00
这是一个非常简单的编程问题,你遍历每行,把成交量收集到一个 list 里面,按 10%递进,算一个 1-100 的百分位数据表,然后再遍历 1 次,用 vol 查出分位数,遍历两次就够了
|
2
ipwx 2022-06-15 17:40:11 +08:00 1
df[column].rolling(window_size).rank(pct=True)
https://pandas.pydata.org/docs/reference/api/pandas.core.window.rolling.Rolling.rank.html |
3
LeeReamond 2022-06-18 22:24:30 +08:00
LZ 这水平出来炼丹不怕炸炉吗。。
|