V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yuluofanchen
V2EX  ›  问与答

求指教,我这个链接的正则表达式写的对吗?

  •  
  •   yuluofanchen · 2017-05-19 16:55:55 +08:00 · 1372 次点击
    这是一个创建于 2743 天前的主题,其中的信息可能已经有所发展或是发生改变。

    链接,http://www.xuexila.com/sudu/fazhan/ 我想抓取,这个目录下的链接,在练习神箭手做爬虫来练习下,看了几个 demo,昨晚成功写了一个,心底很高兴,挺有成就感的,但是今天抓取的,感觉有点怪,抓取到了其他目录的链接。

    我是这样写的正则。 var configs = { domains: ["www.xuexila.com"],// 网站域名,设置域名后只处理这些域名下的网页 scanUrls: ["http://www.xuexila.com/sudu/fazhan/"],// 入口页链接,分别从这些链接开始爬取 contentUrlRegexes: [/http://www.xuexila.com/sudu/fazhan/\d+.html/],// 内容页 url

    /http://www.xuexila.com/sudu/fazhan/\d+.html/ 不知道这个写法对吗,这个是参考了里面的 demo,然后瞄了一眼 30 分钟入门正则的,晚上打算认真学习下正则,感觉挺有用的。谢谢大家了。

    ps:学 python 挺有趣的,现在在看嵩天老师的 python 程序设计,第 4 周。还没到爬虫那一块。自学一点就是学起来费劲,比如我昨天刚接触的神箭手,前面三行代码看了几个 demo 才写的,后面的抽取规则,不懂,一开始没写,然后运行,没有抓取结果,然后重新看了下代码,发现要写抽取规则,看见 // 默认使用 xpath 抽取,我的天,不懂 xpath,赶紧百度了一下,看到是要把 html 转换成 dom 节点,然后我又去百度了下在线 html 转换 dom,搜了好久没搜到,后来看到一篇文章,说打开网页,然后右键,审查元素,然后复制 xpath,原来这么简单,我会了。但是实际上,有 xpath 语法的,因为我抽取标题的规则,是直接右键,然后复制出来的是 /html/body/div[5]/div/div[2]/div[1]/h1,我又试了下,发现不行,然后又跑去看了下 demo,又看了一眼 xpath,结果发现,标题的抽取直接 //h1 就可以了。反正折腾下来,就写了一个小爬虫。哈哈。然后昨晚,问了关于 xpath 的一个问题,https://www.v2ex.com/t/362343,我试了下,没成功,晚上再去摸索一下。现在是链接的正则,我不知道对不对,还是请大家帮忙看下,谢谢。

    5 条回复    2017-05-20 08:56:19 +08:00
    yuluofanchen
        1
    yuluofanchen  
    OP
       2017-05-19 16:59:30 +08:00
    oott123
        2
    oott123  
       2017-05-19 23:43:33 +08:00 via Android
    我只想问你到底是在学 Python 还是在学 js …
    为啥你贴的这个代码是 js 的呢?

    …另外就是一直提某个网站是不是有广告嫌疑了
    oott123
        3
    oott123  
       2017-05-19 23:44:03 +08:00 via Android
    哦,回答正则的问题,写得不对,/和.都没有转义
    yuluofanchen
        4
    yuluofanchen  
    OP
       2017-05-20 07:50:57 +08:00 via Android
    @oott123 看图片,我源码是对的,转义了。如果有广告嫌疑,我以后不提了,谢谢,我自己看书学习。
    oott123
        5
    oott123  
       2017-05-20 08:56:19 +08:00 via Android   ❤️ 1
    图片里最后一个 . 买转义 不过不影响
    我理解不是广告,我意思是你前面说 Python 后面突然 js 感觉就很奇怪像是广告…
    _(:з」∠)_再说这种看上去不太知名的平台学会了意义也不太大?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3997 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 05:30 · PVG 13:30 · LAX 21:30 · JFK 00:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.