我有这样一行文字
1# 000655 金岭矿业 9:25 17 中报 股+涨价 -钢铁 +国企改革 17 半年报预增 137%至 158%+铁矿石 (资源)+实际控制人山东省国资委 持有 58.41%+主业包含对钴金属的生产销售 1
我想要能够提取成
000655 17 中报 股+涨价 -钢铁 +国企改革 17 半年报预增 137%至 158%+铁矿石 (资源)+实际控制人山东省国资委 持有 58.41%+主业包含对钴金属的生产销售
1
Tony042 2017-07-31 22:08:48 +08:00
python split 函数,然后再字符串拼接就行
|
2
ech0x 2017-07-31 22:20:08 +08:00 via iPad
这是股市新闻?
“ 1#” 如果在开头有规律的话应该是好去除的 “ 00065 ” 是股票代码吧,与“金陵矿业”这类的有对应关系,利用开放的 API 或者数据库应该可以查到这个对应关系,然后提取删除就行了。 9:25 是时间,利用正则提取删除。 |
3
wisej 2017-07-31 22:39:55 +08:00 1
s = '000655 金岭矿业 9:25 17 中报 股+涨价 -钢铁 +国企改革 17 半年报预增 137%至 158%+铁矿石 (资源)+实际控制人山东省国资委 持有 58.41%+主业包含对钴金属的生产销售'
l = s.split() name = l[1] time = l[2] name_length = len(name) time_length = len(time) name_start_index = s.find(name) time_start_index = s.find(time) time_end_index = time_start_index + time_length - 1 p1 = s[:name_start_index] p2 = s[time_end_index + 1:] print(p1 + p2) |
4
nongmei 2017-08-01 10:54:33 +08:00
为啥我首先想到的是 awk
|
5
fearme OP 非常感谢
|
6
araraloren 2017-08-01 11:37:49 +08:00
@nongmei 我首先想到的是这是个伸手党。。
|
7
fearme OP @araraloren 我是初学者,如果打扰各位,很抱歉,下次不这样了
|