V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linkbg
V2EX  ›  Python

Python 如何实现字符串比较并输出不同点

  •  
  •   linkbg · 2017-12-24 11:42:57 +08:00 · 5926 次点击
    这是一个创建于 2524 天前的主题,其中的信息可能已经有所发展或是发生改变。

    举例子: a = '123sdasiioi' b = '123sdasiioi12'

    最终输出: 12

    已经尝试 diff 和通过列表的方式。但是最终没能完成想要的结果,求指导。谢谢

    11 条回复    2017-12-26 10:12:51 +08:00
    lihongjie0209
        1
    lihongjie0209  
       2017-12-24 11:47:12 +08:00   ❤️ 1
    ```

    >>> b.replace(a, "")
    '12'
    ```
    imn1
        2
    imn1  
       2017-12-24 11:50:58 +08:00
    其实,你还需要定义“不同点”
    abc vs bac 期望结果是什么?
    Zzde
        3
    Zzde  
       2017-12-24 11:51:20 +08:00 via Android
    取差集?
    SakuraSa
        4
    SakuraSa  
       2017-12-24 12:31:00 +08:00   ❤️ 3
    这个问题的重点还是怎么定义“不同点”
    不过对于序列的不同,有一个比较通用的定义方式:编辑距离
    编辑距离,就是通过
    1. 插入一个元素
    2. 删除一个元素
    3. 修改一个元素
    将一个序列变成另一个序列的最短步数
    我觉得这个最短步数的操作序列可以作为“不同点”的定义

    在 python2.7+中有个 difflib 实现了序列编辑距离的计算

    import difflib
    a = '123sdasiioi'
    b = '123sdasiioi12'
    print(difflib.SequenceMatcher(None, a, b).get_opcodes())

    >>> [('equal', 0, 11, 0, 11), ('insert', 11, 11, 11, 13)]

    把 equal 去掉,大概就是你说的不同了
    linanwy
        5
    linanwy  
       2017-12-24 13:50:51 +08:00
    典型的 X-Y Problem。最好把你的使用场景和目的说出来。
    linkbg
        6
    linkbg  
    OP
       2017-12-24 14:35:21 +08:00
    @imn1 @SakuraSa 位置是不固定的。
    场景:
    @linanwy 爬虫数据清洗。以一个时间点的为初始化字符串,之后根据这个字符串啦提取更新的子字符串。
    SakuraSa
        7
    SakuraSa  
       2017-12-24 14:48:25 +08:00
    @linkbg
    编辑距离并不不会受到位置的影响,例如:

    import difflib
    a = 'abc'
    b = 'axxc123'
    print(difflib.SequenceMatcher(None, a, b).get_opcodes())

    >>> [('equal', 0, 1, 0, 1), ('replace', 1, 2, 1, 3), ('equal', 2, 3, 3, 4), ('insert', 3, 3, 4, 7)]
    SakuraSa
        8
    SakuraSa  
       2017-12-24 14:59:39 +08:00
    @linkbg

    更直观的形式(py3):

    import difflib
    a = '00abc'
    b = 'axxc123'
    opcodes = difflib.SequenceMatcher(None, a, b).get_opcodes()
    print('change "%s" to "%s":' % (a, b))
    print(*(
    '%6s "%s"->"%s"' % (op, a[af:at], b[bf:bt])
    for op, af, at, bf, bt in opcodes
    if op != 'equal'), sep='\n')

    >>>output:
    change "00abc" to "axxc123":
    delete "00"->""
    replace "b"->"xx"
    insert ""->"123"
    param
        9
    param  
       2017-12-25 06:11:15 +08:00 via Android
    求最长子序列?动态规划经典算法。。。
    saulshao
        10
    saulshao  
       2017-12-25 10:40:37 +08:00
    这个问题本身需要进一步澄清:
    假设: a = 'xy123sdasiioi' b = '123sdasiioi12'
    你希望输出什么?
    dirls
        11
    dirls  
       2017-12-26 10:12:51 +08:00
    我是仔细研读了楼主的题目,还是没看懂题主要表达什么意思?如果举例有几类不同的情况,请全部举出来!
    如果仅举例子:a = '123sdasiioi' b = '123sdasiioi12'
    1 楼的就能输出结果啊!!

    提问很重要!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:25 · PVG 06:25 · LAX 14:25 · JFK 17:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.