求指教，我这个链接的正则表达式写的对吗？

This topic created in 3354 days ago, the information mentioned may be changed or developed.

链接，http://www.xuexila.com/sudu/fazhan/ 我想抓取，这个目录下的链接，在练习神箭手做爬虫来练习下，看了几个 demo，昨晚成功写了一个，心底很高兴，挺有成就感的，但是今天抓取的，感觉有点怪，抓取到了其他目录的链接。

我是这样写的正则。 var configs = { domains: ["www.xuexila.com"],// 网站域名，设置域名后只处理这些域名下的网页 scanUrls: ["http://www.xuexila.com/sudu/fazhan/"],// 入口页链接，分别从这些链接开始爬取 contentUrlRegexes: [/http://www.xuexila.com/sudu/fazhan/\d+.html/],// 内容页 url

/http://www.xuexila.com/sudu/fazhan/\d+.html/ 不知道这个写法对吗，这个是参考了里面的 demo，然后瞄了一眼 30 分钟入门正则的，晚上打算认真学习下正则，感觉挺有用的。谢谢大家了。

ps：学 python 挺有趣的，现在在看嵩天老师的 python 程序设计，第 4 周。还没到爬虫那一块。自学一点就是学起来费劲，比如我昨天刚接触的神箭手，前面三行代码看了几个 demo 才写的，后面的抽取规则，不懂，一开始没写，然后运行，没有抓取结果，然后重新看了下代码，发现要写抽取规则，看见 // 默认使用 xpath 抽取，我的天，不懂 xpath，赶紧百度了一下，看到是要把 html 转换成 dom 节点，然后我又去百度了下在线 html 转换 dom，搜了好久没搜到，后来看到一篇文章，说打开网页，然后右键，审查元素，然后复制 xpath，原来这么简单，我会了。但是实际上，有 xpath 语法的，因为我抽取标题的规则，是直接右键，然后复制出来的是 /html/body/div[5]/div/div[2]/div[1]/h1，我又试了下，发现不行，然后又跑去看了下 demo，又看了一眼 xpath，结果发现，标题的抽取直接 //h1 就可以了。反正折腾下来，就写了一个小爬虫。哈哈。然后昨晚，问了关于 xpath 的一个问题，https://www.v2ex.com/t/362343，我试了下，没成功，晚上再去摸索一下。现在是链接的正则，我不知道对不对，还是请大家帮忙看下，谢谢。

5 replies • 2017-05-20 08:56:19 +08:00