re.split()分割正则匹配问题(保留字符？）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 1522 days ago, the information mentioned may be changed or developed.

spilitList = re.split(r'\;[\s|\S+|\r|\n|\r\n|][a-zA-Z]', testTEXT)

我想以 [；+一个英文字符] 作为匹配来断，但断开成为列表的内容，每个元素会吃掉[a-zA-Z]这个字符，请问如何修改正则表达式，可以保留[a-zA-Z]这个字符?

字符

a-za-z

split

testtext

4 replies • 2022-03-08 22:03:01 +08:00

Dockerfile

Mar 8, 2022

不要用 split ，用 re.findall

ClericPy

Mar 8, 2022

以后如果不擅长描述需求, 不如直接举例子... input=xxx, output=yyy, expect=zzz

按字面理解似乎 [] 不是边界, 我大致猜一猜的话

输入='test; 1; abc; def'
输出=['test; 1', 'bc', 'ef']
期望=['test; 1', 'abc', 'def']

简单理解需求就是用了字母做分界, 但是结果里依然要留下这字母. 可以考虑零宽断言, 宽度为 0 就不会被算进去

import re

testTEXT = 'test; 1; abc; def'
print('输入', testTEXT)
print('错误输出', re.split(r'\;[\s|\S+|\r|\n|\r\n|][a-zA-Z]', testTEXT))
print('正确输出', re.split(r';\s*(?=[a-zA-Z])', testTEXT))
# 输入 test; 1; abc; def
# 错误输出 ['test; 1', 'bc', 'ef']
# 正确输出 ['test; 1', 'abc', 'def']

ho121

Mar 8, 2022 via Android

Positive Lookahead ？

ho121

Mar 8, 2022 via Android

https://stackoverflow.com/a/2973495/1968839