一些背景信息:
-500w的文本数据(字母、数字,汉字,特殊符号);
-每条文本数据格式较固定,例「*张小明*18800008877*深圳*」;
-「*」可能包含和手机号位数一样的数字;
-「姓名」里面的字也有可能和「城市」名字重合;
-500w的文本数据(字母、数字,汉字,特殊符号);
-每条文本数据格式较固定,例「*张小明*18800008877*深圳*」;
-「*」可能包含和手机号位数一样的数字;
-「姓名」里面的字也有可能和「城市」名字重合;
1
gamexg Nov 1, 2013
条之间的分隔呢?
如果有的话,正则应该能提取出来。 姓名里面不会含有数字;手机号码有一定的位数,开头也是固定的。 |
2
bingwenshi Nov 1, 2013
awk
|
3
slixurd Nov 2, 2013
500w条不自己写个c++小程序来跑?python什么的也行..
awk如果会用更好,直接写bash |