本人没做过数据分析。粗看了一下《 Python 数据科学手册》《利用 Python 进行数据分析》这两本书中关于 numpy 和 pandas 的介绍。主要想了解一下这两个库能做些什么工作。看过以后形成了如下印象,想听听各位高手的看法。
看起来这两个库就是对矩阵(或表格)数据进行排序,索引,切片,特殊值批量替换(如 NaN,null ),格式转换(如字符串类型的时间数据,转换成时间类型的数据)然后可以根据日期数据进行各种遍历操作。如提取特殊时间段的数据。求指定时间段数据的和,平均值,标准差,各分位数……。数据的转置。批量运算。
总的印象就是我们日常在 excel 里做的工作通过代码加以实现。是这样么??????
当然我不否认通过代码实现在处理批量数据时比如 100 行整数。每行数据都要乘以指定的整数。或者有 100 个 excel 文件要做同样的批处理用代码实现肯定的提高效率。但是这些功能似乎用 sql 或 excel 自带的 vba 应该也可以实现吧(也许不如 python 代码简洁。但是也应该可以实现吧?)
以上是 numpy 和 pandas 的主要作用么?如果是,那么实现的数据处理功能感觉很初级吧,距离“数据科学”似乎还有点远?如果我对 numpy 和 pandas 的印象是错的。那么请各位高手举例指出。例如哪些数据处理是 excel 实现不了或者哪些海量数据的批量处理是 sql 或 vba 实现不了的?
看起来这两个库就是对矩阵(或表格)数据进行排序,索引,切片,特殊值批量替换(如 NaN,null ),格式转换(如字符串类型的时间数据,转换成时间类型的数据)然后可以根据日期数据进行各种遍历操作。如提取特殊时间段的数据。求指定时间段数据的和,平均值,标准差,各分位数……。数据的转置。批量运算。
总的印象就是我们日常在 excel 里做的工作通过代码加以实现。是这样么??????
当然我不否认通过代码实现在处理批量数据时比如 100 行整数。每行数据都要乘以指定的整数。或者有 100 个 excel 文件要做同样的批处理用代码实现肯定的提高效率。但是这些功能似乎用 sql 或 excel 自带的 vba 应该也可以实现吧(也许不如 python 代码简洁。但是也应该可以实现吧?)
以上是 numpy 和 pandas 的主要作用么?如果是,那么实现的数据处理功能感觉很初级吧,距离“数据科学”似乎还有点远?如果我对 numpy 和 pandas 的印象是错的。那么请各位高手举例指出。例如哪些数据处理是 excel 实现不了或者哪些海量数据的批量处理是 sql 或 vba 实现不了的?