1
wang2191195 2012 年 12 月 14 日
scrapy 你值得拥有
|
2
enj0y 2012 年 12 月 14 日
使用云的理念,用访客的资源来爬行,节约服务器资源。。
哈哈,估计这样的网站没有人敢访问。 |
3
kenneth OP |
4
flyingkid 2012 年 12 月 14 日
设置一个规则 http://*.hao123.com/*
其他的全部调过。 |
6
zuroc 2012 年 12 月 14 日
|
7
zuroc 2012 年 12 月 14 日 |
8
momou 2012 年 12 月 14 日
|
10
tioover 2012 年 12 月 14 日
curl拉下来
然后找出所有<a> |
11
dreampuf 2012 年 12 月 14 日
wget -e robots=off -r -T 3 --domains=hao123.com www.hao123.com
for i in `find . -iname *.html`; do cat $i | grep "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done |
12
greatghoul 2012 年 12 月 14 日
wget 就搞定了。
|
13
glsee 2012 年 12 月 14 日
|
14
barbery 2012 年 12 月 15 日
右键网页另存为。。。。用正则提取。。。。
|
15
im924106179 2012 年 12 月 15 日
100rmb包搞定
|
16
kenneth OP @im924106179 你能搞定就上代码,100rmb我付你。
|
17
xjay 2012 年 12 月 16 日
scrapy 你值得拥有,呵呵。
用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。 |
18
ccdjh 2012 年 12 月 16 日
爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。
你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware 把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同 |
19
xieranmaya 2012 年 12 月 17 日
这样行不行,用jQuery
$("a").each(function(){ $("<div></div>").load(this.href).appendTo(document.body); }); |
21
kenneth OP |
22
bigdude 2012 年 12 月 19 日
wget 啊
|
23
IFoon 2012 年 12 月 19 日
用采集工具啊。。
www.sensite.cn |
24
adyizhan 2012 年 12 月 19 日
@im924106179 怎么联系。
|
25
ADIVILOrz 2012 年 12 月 19 日
|
27
ADIVILOrz 2012 年 12 月 20 日
@kenneth 看你入什么库,什么表结构。sqlite3,postgresql,mysql都有CLI工具,shell可以直接调用导入文本。
|
28
secretworry 2012 年 12 月 20 日
@kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。
其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND) |
29
aksoft 2012 年 12 月 21 日
都是NB人,学习下..
|