1
Melodic 2015-02-04 19:05:58 +08:00
打开是个404,xpath中的第一个标签就搜不到,跑啥
|
2
Melodic 2015-02-04 21:09:05 +08:00 1
不好意思,上面那个回答太草率了,下班之后我也爬了一下,一开始总是503
2015-02-04 20:53:38+0800 [apple] DEBUG: Crawled (200) <GET http://www.appannie.com/apps/ios/top/china/games/?device=iphone> (referer: None) Feb 4, 2015 后来比对了一下原因基本锁定在了user_agent的上面,一定是还带着scrapy的头就get去了 给你提供了几个普通的浏览器user_agent ,放在settings.py 中。你再试一下吧 #USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5' |
3
tongle OP @Melodic USER_AGENT在settings.py里设置了五个 每次抓取的时候随机选取了其中一个的,然后是使用了proxy抓取的 会是这个的问题吗?
|
4
Melodic 2015-02-04 22:59:41 +08:00
|
5
binux 2015-02-04 23:25:04 +08:00 1
你需要把失败时的页面存下来。
|
6
tongle OP @Melodic 页面是抓下来了 返回的状态码也是200 但是信息和我直接访问看到的源码是不一致的,日期不对,抓取到的页面显示出来的 rank_date源信息确实是Feb 3, 2015,但是浏览器内查看到的源码是Feb 5, 2015
@binux 页面存下来是要查看源信息是吗 2015-02-05 10:03:32+0800 [annie] DEBUG: Crawled (200) <GET http://www.appannie.com/apps/ios/top/china/games/?device=iphone> (referer: None) [u'<div class="ss-top-chart-filter">\n \n <div class="filter-item" control-filter="list-picker" data-name="device" data-ganame="Device" data-title="\u8bbe\u5907" data-icon="icon-tablet"><a class="current">iPhone</a><a class="more"><i class="icon-caret-down"></i></a><a class="title"><span class="icon-tablet"></span><span class="filter-name">\u8bbe\u5907</span></a></div>\n <div class="filter-item" control-filter="tab-picker" data-name="country" data-ganame="Country" data-title="\u56fd\u5bb6" data-icon="icon-globe"><a class="current">\u4e2d\u56fd</a><a class="more"><i class="icon-caret-down"></i></a><a class="title"><span class="icon-globe"></span><span class="filter-name">\u56fd\u5bb6</span></a></div>\n <div class="filter-item" control-filter="menu-picker" data-name="category" data-ganame="Category" data-type="menu" data-title="\u7c7b\u522b" data-icon="icon-folder-open-alt"><a class="current">\u6e38\u620f</a><a class="more"><i class="icon-caret-down"></i></a><a class="title"><span class="icon-folder-open-alt"></span><span class="filter-name">\u7c7b\u522b</span></a></div>\n <div class="filter-item" control-filter="list-picker" data-name="iap" data-ganame="IAP" data-title="App\u5185\u8d2d\u4e70" data-icon="aaicon-inapppurchase" style=""><a class="current">\u6240\u6709App</a><a class="more"><i class="icon-caret-down"></i></a><a class="title"><span class="aaicon-inapppurchase"></span><span class="filter-name">App\u5185\u8d2d\u4e70</span></a></div>\n <div class="filter-item" control-filter="daily" data-name="date" data-ganame="Date" data-title="\u65e5\u671f" data-icon="icon-calendar"><a class="current">Feb 3, 2015</a><a class="more"><i class="icon-caret-down"></i></a><a class="title"><span class="icon-calendar"></span><span class="filter-name">\u65e5\u671f</span></a></div>\n \n </div>'] 这是刚刚我获取的页面,奇怪的就是<a class="current">Feb 3, 2015</a> 为什么还是Feb 3呢 |
8
roricon 2015-02-05 12:47:49 +08:00
|
9
roricon 2015-02-05 12:49:59 +08:00 1
|
10
binux 2015-02-05 12:52:25 +08:00
@roricon 你是怎么确认 "任务还是会被scheduler忽略" 的,任务的当前状态是什么。修改后有没有尝试重启 pyspider 。
|
11
roricon 2015-02-05 12:54:08 +08:00
我在日志里面看到on_start之后,新进来的任务直接就被ignore了。
我没重启pyspider,这个情况我是应该重启scheduler还是fetcher?或是其他组件? |
15
binux 2015-02-05 13:04:05 +08:00
@roricon proxy authorization 吗?你改变行为了,导致 CI 测试不通过。现在 proxy 是默认启用,你没有 merge 这个特性。
|