# 需求
- 指定某一个网站host
- 抽取该网站的网页URL,暂定抽取上限10000条(针对门户);不满足的抽取5000条;否则全量抽取
- 只保存爬取的URL地址,不需要抽取任何内容,结果保存在txt文件中。
- 速度越快越好
谢谢
1
kchum 2015-03-13 11:35:59 +08:00 via iPhone 1
不爬内容怎么爬 URL
URL 就是内容的一部分 |
2
binux 2015-03-13 11:41:08 +08:00 1
google site:host
|
4
MrGba2z 2015-03-13 13:30:17 +08:00 via iPhone 2
|
5
icedx 2015-03-13 13:36:29 +08:00 via Android 1
requests+bs4
|
6
frankzeng 2015-03-13 13:49:41 +08:00
你就爬一下首页,把url取下来,算一下不重复的有多少,如果不够就再爬url,这不是挺简单的逻辑吗
|
7
Battle 2015-03-13 14:32:16 +08:00
有一个东西叫火车头
|
8
bingu 2015-03-13 14:41:56 +08:00
wget ?
|
9
Tink 2015-03-14 10:30:29 +08:00 via iPhone
二楼这个办法不错,主要是ip的问题
|