有个超过 256 列的 csv 表,大概在 800 多列,10w 行 另外有一张表,要匹配上面这个表中的部分字段,然后找出关键字对应的值,类似于 vlookup 这种功能 现在的情况是,通过 vlookup 也能找,但是花费的时间比较长,放到数据库里,光导入的时间就不是一点半点的 请教一下大家有没有什么好的办法?
1
binux 2018-05-10 06:32:39 +08:00
你排序了吗?
|
2
madNeal 2018-05-10 06:48:10 +08:00
能不能希望查询的字段抽出来,写到本地 json 文件中,并且保存和 csv 的映射关系,这样找是不是会快一点。
|
3
AX5N 2018-05-10 07:23:14 +08:00
能预处理转换成别的数据结构的话,那倒是有很多办法。不过估计跟直接导入数据库也差不多。
|
4
iceheart 2018-05-10 07:29:42 +08:00 via Android
把小表读到内存里,对你要匹配的列建索引(就是建几个 map)。然后遍历大表,先匹配你的查找范围,再从小表的索引里查。
应该用不上多少行代码 |
5
Boyizmen 2018-05-10 07:38:27 +08:00 via Android
excel 功能挺强大的不知道转成 excel 格式来处理能不能满足你的需求
|
6
zk123 2018-05-10 07:38:38 +08:00 via Android
用 ketttle
|
7
hrong 2018-05-10 07:51:51 +08:00 via Android
赞同小表方案。
另外,找找有没有可以高速探索 csv 的库,游标打开后前后移动的那种,这样从真实 csv 取数据不失性能也比较方便。 |
8
doun 2018-05-10 07:53:30 +08:00 via Android
10W 行很大?导数据库不是随便折腾吗?或者 power query 了解一下
|
9
liuzhaowei55 2018-05-10 07:54:58 +08:00 via iPhone
能否确定需要的列?在本地预处理 csv 文件,然后再上传
|
10
df4VW 2018-05-10 08:03:49 +08:00
10w 行导入,考虑到比较长,就算个 2 分钟吧
|
11
McooLewis 2018-05-10 08:06:03 +08:00 via Android
全倒进数据库不随便折腾?才多少东西啊导入就要好长时间。
|
12
SErHo 2018-05-10 08:24:52 +08:00 1
https://github.com/BurntSushi/xsv 知道有个这个工具,但是没用过,可以看看能不能满足。
|
13
mengzx 2018-05-10 08:28:42 +08:00 via Android
excel 处理这点数据还是没问题的,不需要导入数据库,如果电脑性能差点可以考虑 excel 的 powerquery 处理
|
14
TimePPT 2018-05-10 08:36:43 +08:00 via iPhone
https://github.com/dinedal/textql
TextQL Allows you to easily execute SQL against structured text like CSV or TSV. 另,Python 的话用 pandas 直接处理 csv 也很方便,就别导入数据库了 |
15
urmyfaith 2018-05-10 09:00:27 +08:00
python 貌似很方便
|
16
mmd1989 2018-05-10 09:14:38 +08:00
10W 行 EXCEL 就搞得定,用 index 配合两个 meach 函数,一定要用 lookup 的话用 lookup 函数,先排序再判断,Vlookup 的效率低很多
|
17
wqzjk393 2018-05-10 09:14:48 +08:00 via iPhone
导数据库里吧,csv 比 xslx 这些都快,我导三四百 m 的 csv 到 access 都很快了
|
18
zhucegeqiu 2018-05-10 09:22:29 +08:00
才 10w 行,用 pandas 吧,pd.read_csv,简单粗暴
|
19
abusizhishen 2018-05-10 09:26:10 +08:00 via Android
7 秒导入 200w 行 load data infile 了解一下
|
20
expkzb 2018-05-10 09:32:28 +08:00
用工具将 csv 转成 sqlite 不会花多久的
|
21
super452 2018-05-10 10:05:23 +08:00
pandas 了解一下?
|
22
ourzhang 2018-05-10 10:38:11 +08:00
外部表。。。
|
24
caryqy 2018-05-10 14:20:22 +08:00
awk + grep 呢
|
25
thedrwu 2018-05-10 16:05:11 +08:00 via Android 1
10w 行的表,awk 如果写得高效,跑起来飞快。
还能多进程并行! 在几十个核心的服务器上跑个几秒就解决了。 |
26
Hopetree 2018-05-10 16:18:54 +08:00
数据的东西交给 pandas
|
27
a132811 2018-05-10 16:47:47 +08:00
才 10w 行,800 列,也没有多少数据嘛。
简单的匹配 grep, awk。复杂点的匹配,就 python 等处理,很方便的啊。 刚 python3 写了一个, 10 多行的事情: wget https://ahui132.github.io/bin/grepcolumn chmod u+x grepcolumn echo 'name=Jack,gender=male,job=coder' | grepcolumn - 'job,name' echo 'Jack,male,coder' | grepcolumn - 'job,name' -c 'name,gender,job' echo 'Jack||male||coder' | grepcolumn - 'job,name' -c 'name,gender,job' -d '||' |
28
annielong 2018-05-10 16:57:39 +08:00
看字段内容吧,如果是一般的字段,还是导入数据库方便,我曾处理过一次复杂文本的 csv,字段用逗号隔开,但是某个字段是富文本,里面一大堆换行 和逗号,不知道为什么用 Excel 引擎导入只能处理一部分,最后还是写个软件 处理后批量插入数据库
|
29
a132811 2018-05-10 17:15:05 +08:00
csv 的话 pands 最方便:
dataFrame = pandas.read_csv("./marks.csv", sep=",") dataFrame = pandas.read_table("./marks.csv", sep=",") |
30
zynlp 2018-05-10 17:21:37 +08:00 via iPhone
spss 了解一下?
|
31
zhangsen1992 2018-05-10 17:48:02 +08:00
数据库操作
|
32
Hzzone 2018-05-10 17:51:28 +08:00
像是中软杯(滑稽)
|
33
qianc1990 2018-05-10 18:12:18 +08:00
10W 多行不算大,pandas 就可以处理
|
35
guyskk0x0 2018-05-11 23:59:05 +08:00 via Android
试试 apache drill,先把 csv 里需要的字段抽出来
|
36
xiaohanqing 2018-05-12 09:55:47 +08:00 via Android
MySQL,loadCSV,6 百万行也是几分钟的事
|