V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
beverse
V2EX  ›  问与答

请教一个 Python 爬虫信息提取问题

  •  
  •   beverse · 2015-01-08 14:54:58 +08:00 · 2586 次点击
    这是一个创建于 3594 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在学写爬虫,聚合程序员的招聘信息,已经聚合了几个网站数据: http://www.codejob.me

    但在写智联招聘爬虫的时候,薪酬如'6001-8000'

    我的python代码:

    s = '6001-8000'
    if '-' in s:
        m = re.match(r'(.*?)-(.*?)', s)
        print m.group(1)
        print m.group(2)
    

    为什么m.group(1)成功得到6001,而m.group(2)得到的是空? 想请教一下大家了。

    5 条回复    2015-01-08 16:39:24 +08:00
    mhycy
        1
    mhycy  
       2015-01-08 15:01:56 +08:00   ❤️ 2
    为何不用split?
    第二个匹配没匹配到,因为写的是'.*?' *可以为空?最小匹配,所以啥都没匹配到
    为何不写成:'([0-9]+)-([0-9]+)'
    cloudream
        2
    cloudream  
       2015-01-08 15:03:19 +08:00   ❤️ 1
    *? 懒惰量词能不匹配就不匹配,所以……
    beverse
        3
    beverse  
    OP
       2015-01-08 15:11:04 +08:00
    感谢@mhycy @cloudream

    可以 m = re.match(r'(\d+)-(\d+)', s)

    或者 s.split('-')
    beverse
        4
    beverse  
    OP
       2015-01-08 15:11:29 +08:00
    @cloudream 谢谢提醒!
    chizhong
        5
    chizhong  
       2015-01-08 16:39:24 +08:00   ❤️ 1
    越做越好了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2980 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 13:53 · PVG 21:53 · LAX 05:53 · JFK 08:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.