1
laoyuan 2015-05-31 16:05:33 +08:00
先收藏一下,回家再看
|
2
kungfuchicken 2015-05-31 16:25:23 +08:00
都把煎蛋当爬虫测试地啊,看来要放个大招反爬虫了
|
3
jason52 OP @laoyuan
楼上同学你做过一个笔记呀~那这个screencast应该就没什么价值了~比较粗浅~ http://v2ex.com/t/187256#reply4 另外一点是在webUI里面写程序比较蛋疼,我觉得应该可以直接本地编辑一个文件,然后webui里面只是负责管理,启动服务。 俺得再找找怎么整~ |
4
jason52 OP @kungfuchicken 啊~~~蛋主我对不起你~~~~~~一看你的详细介绍吓尿了~~~~
|
6
sefemp 2015-05-31 17:18:28 +08:00
query的发音。。。
|
7
laoyuan 2015-05-31 17:22:06 +08:00
hahaha 测试可行,我真是太机智了~
|
8
flight2006 2015-05-31 17:30:12 +08:00 via Android
抓过,后来觉得不够刺激,改了下去抓1024了,1024抓起来费劲点
|
10
matrix67 2015-05-31 18:58:55 +08:00 via Android
先学肿么抓代理
|
11
binux 2015-05-31 22:46:17 +08:00
pyspider 不一定是在本地运行的,所以直接编辑文件不是那么通用
以前用 webdav 实现过在本地编辑,同步到到 webui 执行 现在这个功能还在 todo list 上 |
12
binux 2015-05-31 22:57:55 +08:00
首先 callback 这个概念在 pyspider 里面很重要,它指的是用哪个函数去解析抓回来的那个页面,然后在那个页面中,是点击下一页,还是抽取图片(或者两个都有),都是那个函数的代码。
然后,你并不需要手动取获取 css 选择器,点击 enable css selector helper 然后,在 web 面板点击元素,就会自动选择最合适的 css 选择器 pattern 了。 |
13
binux 2015-05-31 22:59:12 +08:00
另外看视频发现个 bug,赶紧悄悄修好了。。
|
14
jason52 OP |
15
11 2015-05-31 23:21:27 +08:00
@binux 大神,感觉 pyspider 的使用情景更像是抓新内容?对于监控页面的变化的场景,能否在脚本里设置保存每次的抓取结果而非替换掉?
|
18
matrix67 2015-06-01 10:27:22 +08:00
2 楼是煎蛋的 全栈工程师...
|
19
binux 2015-06-05 09:34:46 +08:00
@laoyuan 现在你可以通过 webdav 挂载脚本为本地文件,用任意编辑器编辑,然后到 web 上调试了。
搜索 webdav windows 看怎么在你的平台上挂载 http://demo.pyspider.org/dav/ 这个地址就好了 |
20
terax 2015-06-19 18:55:17 +08:00
LZ能把代码放到Github上吗?
|
21
peterxu 2015-08-05 17:35:00 +08:00
mark
|