1
bazingaterry 2017-03-08 09:36:44 +08:00
return book --> yield book
|
2
freestyle 2017-03-08 09:44:10 +08:00
LinkExtractor 的正则写错了 r'/tag/小说\?start=\d+'
|
3
freestyle 2017-03-08 09:44:32 +08:00
@bazingaterry return 也可以
|
4
freestyle 2017-03-08 09:47:43 +08:00 1
不知道你这是不是 Python2 可能要加 u ur'/tag/小说\?start=\d+'
|
5
congminghaoxue92 2017-03-08 10:08:29 +08:00
你没有加翻页功能吧,加上翻页判断。
|
7
anguslg OP @congminghaoxue92 scrapy 框架已经帮做了这个事情
|
8
nicevar 2017-03-09 00:20:35 +08:00 1
问题出在 rules 上, callback 随便重新写个函数,不用覆盖 parse 就行了
|
9
anguslg OP @nicevar 确实是这个问题。很奇怪,我在开始使用 Rule 来爬取多页的时候,就把 callback 函数重写了,但是当时也是只能只能爬取单个页面……
|