最近在知乎上看到的
MS Excel 支持自动化的数据分析,帮你发现数据中的一些趋势等等
https://www.zhihu.com/question/27588491/answer/276995903

论文在 https://dl.acm.org/citation.cfm?id=3035922&CFID=1020097431&CFTOKEN=74864648
仔细看了一下,发现实现主要是两点
- 确定数据分析的搜索空间(可分析的维度其实相当大),分成若干个可分析的子空间( i.e. 表)
- 根据预定义的分析方式,分析子空间存在的数据趋势( i.e. insight ),显示规律、趋势很强的数据特性(落地方法是 significant-level )
简单来说,就是在数据表的子空间里遍历一遍预定义的数据趋势、规律
而这些规律是人工先预先定义好的(比如上升下降、outlier、相关性等等),而且还在一个一个实现,具体可见 Power BI 的官方说明
我个人看完,觉得其实也可以实现到 Python、R 的数据分析当中?
最近在看 Kaggle 的时候,发现其实大家都要花不少功夫做基本的数据分析,就包括了上述这些内容,比如
-
https://www.kaggle.com/philippsp/exploratory-analysis-zillow
-
https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-zillow-prize
虽然能得到的 insight 较为有限(都是预定义好的),但是我觉得起码能减少许多重复、简单的工作量
不知道这方面有什么开源的工作了?