scrapy 数据输出成 json 文件是空的，这是什么问题

import scrapy
from scrapy.selector import Selector

from tutorial.items import DmozItem

class DmozSpider(scrapy.spider.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
    "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
    "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
    sel = Selector(response)
    sites = sel.xpath('//ul[@class="directory-url"]/li')
    items = []
    for sel in sites:
        item = DmozItem()
        item['title'] = sel.xpath('a/text()').extract()
        item['link'] = sel.xpath('a/@href').extract()
        item['desc'] = sel.xpath('text()').re('-\s[^\n]*\\r')
        items.append(item)
    return items

sel.xpath

item

Scrapy

26 replies • 2015-05-13 18:21:04 +08:00

mahone3297

May 11, 2015

我看到例子是，parse最后是 yield item，不是return。。。

sugusor

May 11, 2015

@mahone3297 我一开始用的是yield,好像也不行。

mahone3297

May 11, 2015

那。。。你log下看看。。。比如，在parse函数里
`self.log("debug info url = " % response.url)`
然后，你可以用scrapy shell 看看你的 xpath是否正确，是否找的到html tag

Gonster

May 12, 2015

话说 def parse下面的缩进是帖子忘写了吗

sugusor

May 12, 2015

@Gonster 好像是复制过来的时候缩进被吃掉了＝＝

sugusor

May 12, 2015

@mahone3297 额，xpath好像都是对的，因为我把抓的内容直接显示在命令行时内容都在，但把它们导出到json却只有一些［］，具体内容都没有导出来。

sugusor

May 12, 2015

@mahone3297 我试了把它们导出成'xml', 'jl', 'json', 'jsonlines', 'csv'，结果只有csv文件中有数据，其他的都没有。而且csv中的文件也好像也有错误，用文本格式打开时能显示desc属性的信息，但我用libreoffice打开时却只有title和link属性有内容。

mahone3297

May 12, 2015

不一般的怪异。。。我最近也在学，都ok。。。我也不知道你什么情况了。。。

sugusor

May 12, 2015

@mahone3297 我在想是不是我安装的不对，我是按照那个官方指南安装的，但是安装的时候它好像忽略了好多东西。。

sugusor

May 12, 2015

@mahone3297 还有我是ubuntu下安装的。。。是不是有什么要注意的地方

mahone3297

May 12, 2015

我也是ubuntu下安装的

先安装一些依赖
apt-get install python-pip
apt-get install python2.7-dev
apt-get install libxml2-dev
apt-get install libxslt1-dev

然后安装scrapy
pip install scrapy

sunchen

May 12, 2015

spider yield item，然后检查下你的pipeline

sugusor

May 12, 2015

@sunchen 我的pipeline就是官方自己生成的，我并没有改过它。还有那个spider yield item命令具体该怎么用啊，我在项目下输入它说没有spider这个命令。。

sugusor

May 12, 2015

@mahone3297 我按照官方文档http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/ubuntu.html#topics-ubuntu 这个安装的，有没有问题？

mahone3297

May 12, 2015

@sugusor 他的意思是说，在spider的parse函数了，yield item，而不是return。。。也就是我前面说过的。。。

sugusor

May 12, 2015

@mahone3297 我发现libxlst1-dev我的安装中没有包括，但我现在装好后好像还是没什么变化

mahone3297

May 12, 2015

@sugusor 应该没问题吧。。。

zenxds

May 12, 2015

yield 单个item试试

sugusor

May 12, 2015

@zenxds 好像还是不行QAQ，只有csv格式可以，xml,json这些都不可以＝＝

beibeijia

May 12, 2015

https://github.com/scrapy/dirbot
这是官网的那个例子你先去下载运行一遍试试我这边可以正常输出如果测试没问题就对着这个检查一遍自己的代码如果有问题的话重装一遍scrapy 再有问题的话我只能说呵呵了你得自己看着办。。。

sunchen

May 12, 2015

@sugusor 把parse方法改成yield单条DmozItem，如果你想一个parse方法中输出多条item，直接多次yield 就行了，然后把你的pipeline代码发上来

sugusor

May 12, 2015

@sunchen 我的pipeline代码是这样的
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

class TutorialPipeline(object):
def process_item(self, item, spider):
return item

sugusor

May 12, 2015

@beibeijia 唔，这个例子我已经试过了，好像还是不行＝＝，我还是重装好了。。不过能说一下怎么能彻底卸载吗？

sunchen

May 12, 2015

@sugusor pipeline里 return改成yield试试

sunchen

May 12, 2015

@sugusor 不对，pipeline里就应该是return，请忽略我的上条回复

beibeijia

May 13, 2015

@sugusor pip uninstall scrapy 然后再安装一遍我刚装的时候也遇到测试问题这样重新安装了一遍就ok了如果不行那就得把依赖包全给卸了重来唉遇到这种奇葩问题反正就是折腾你自己试试吧。