链接,http://www.xuexila.com/sudu/fazhan/ 我想抓取,这个目录下的链接,在练习神箭手做爬虫来练习下,看了几个 demo,昨晚成功写了一个,心底很高兴,挺有成就感的,但是今天抓取的,感觉有点怪,抓取到了其他目录的链接。
我是这样写的正则。 var configs = { domains: ["www.xuexila.com"],// 网站域名,设置域名后只处理这些域名下的网页 scanUrls: ["http://www.xuexila.com/sudu/fazhan/"],// 入口页链接,分别从这些链接开始爬取 contentUrlRegexes: [/http://www.xuexila.com/sudu/fazhan/\d+.html/],// 内容页 url
/http://www.xuexila.com/sudu/fazhan/\d+.html/ 不知道这个写法对吗,这个是参考了里面的 demo,然后瞄了一眼 30 分钟入门正则的,晚上打算认真学习下正则,感觉挺有用的。谢谢大家了。
ps:学 python 挺有趣的,现在在看嵩天老师的 python 程序设计,第 4 周。还没到爬虫那一块。自学一点就是学起来费劲,比如我昨天刚接触的神箭手,前面三行代码看了几个 demo 才写的,后面的抽取规则,不懂,一开始没写,然后运行,没有抓取结果,然后重新看了下代码,发现要写抽取规则,看见 // 默认使用 xpath 抽取,我的天,不懂 xpath,赶紧百度了一下,看到是要把 html 转换成 dom 节点,然后我又去百度了下在线 html 转换 dom,搜了好久没搜到,后来看到一篇文章,说打开网页,然后右键,审查元素,然后复制 xpath,原来这么简单,我会了。但是实际上,有 xpath 语法的,因为我抽取标题的规则,是直接右键,然后复制出来的是 /html/body/div[5]/div/div[2]/div[1]/h1,我又试了下,发现不行,然后又跑去看了下 demo,又看了一眼 xpath,结果发现,标题的抽取直接 //h1 就可以了。反正折腾下来,就写了一个小爬虫。哈哈。然后昨晚,问了关于 xpath 的一个问题,https://www.v2ex.com/t/362343,我试了下,没成功,晚上再去摸索一下。现在是链接的正则,我不知道对不对,还是请大家帮忙看下,谢谢。
1
yuluofanchen OP |
2
oott123 2017-05-19 23:43:33 +08:00 via Android
我只想问你到底是在学 Python 还是在学 js …
为啥你贴的这个代码是 js 的呢? …另外就是一直提某个网站是不是有广告嫌疑了 |
3
oott123 2017-05-19 23:44:03 +08:00 via Android
哦,回答正则的问题,写得不对,/和.都没有转义
|
4
yuluofanchen OP @oott123 看图片,我源码是对的,转义了。如果有广告嫌疑,我以后不提了,谢谢,我自己看书学习。
|
5
oott123 2017-05-20 08:56:19 +08:00 via Android 1
图片里最后一个 . 买转义 不过不影响
我理解不是广告,我意思是你前面说 Python 后面突然 js 感觉就很奇怪像是广告… _(:з」∠)_再说这种看上去不太知名的平台学会了意义也不太大? |