现在项目做的数据开发后,会在开发环境数据库导入一部分测试数据,验证算法并且得到我的结果数据,我的结果数据从数据库中导出为 excel 表格 同时研究部门也会用同样的源数据用 python 计算得到一份结果数据作为标准数据,导出为 excel 表格, 再将两个表格做对比,问题是现在步骤太繁琐了,而且 excel 对比需要一一对数据主键排序保证行行对等,并且比对数据,请问能否有一种专业的数据比对工具或者方法简化比对的流程呢?
1
newmlp 2020-11-03 10:08:49 +08:00
csv 不行么
|
3
ZeroUpdate 2020-11-03 10:18:30 +08:00
Beyond Compare
|
4
dswyzx 2020-11-03 11:10:50 +08:00
一个大胆的想法,双方规范一个排序规则,所有数据写成一个字符串,然后取 md5 一下
|
5
whasyt OP @ZeroUpdate #3 内网没有这个工具..文本比对也想过了,还是要经过排序、转格式、、等等
|
6
imn1 2020-11-03 11:16:53 +08:00
对比是你的工作需求,还是 python 那边的工作需求?
那边的话,你管他呢,python 对比二维数据不难啊,pandas 做这个是小事一桩 |
9
princelai 2020-11-03 11:18:58 +08:00
你用 pandas 读两个表,索引 merge 或者 concat,然后用 isna,notna 看看是否也有 nan,col1/col2 计算误差,是这样吗?
|
11
vicalloy 2020-11-03 11:27:04 +08:00
为什么不直接用 python 做数据对比,对比结果直接输出成 excel 。
|
12
imn1 2020-11-03 11:27:45 +08:00
@whasyt #8
基本上做数据分析的,对比数据是“日常工作”,基础,相关软件都有这个功能,或者组合出这个功能 如果你不会 python+pandas,或者其他工具,教你个简单方法,反正对比的原理也是类似 excel 的话,就假定你的数据量不大( excel 一表也就 6 万条),可以用内存 sql 数据库,弄两个表(或者扔进一个,根据 id 区别就行),用 sql 语法查重、查异、去重……等等操作就是了 |
14
ra1983 2020-11-03 11:32:32 +08:00 via Android
我用的野路子方法,用报表工具,我用 Tableau 建立两个数据源,这样就不局限于 Excel 。然后 join,主键当 dimension 。要对比哪个列,就直接作为 measure
|