一个要求很简单的爬虫，有没有相关的开源程序推荐？

This topic created in 4100 days ago, the information mentioned may be changed or developed.

＃需求
- 指定某一个网站host
- 抽取该网站的网页URL，暂定抽取上限10000条（针对门户）；不满足的抽取5000条；否则全量抽取
- 只保存爬取的URL地址，不需要抽取任何内容，结果保存在txt文件中。
- 速度越快越好

谢谢

Supplement 1 · Mar 13, 2015

谢谢各位。
调研和尝试了下，用requests＋bs4非常适合我的需求。

9 replies • 2015-03-14 10:30:29 +08:00

kchum

Mar 13, 2015 via iPhone

不爬内容怎么爬 URL
URL 就是内容的一部分

binux

Mar 13, 2015

google site:host

xiaogui

Mar 13, 2015

@binux 这是个不错办法，哈哈

v2gba

Mar 13, 2015 via iPhone

icedx

Mar 13, 2015 via Android

requests+bs4

frankzeng

Mar 13, 2015

你就爬一下首页，把url取下来，算一下不重复的有多少，如果不够就再爬url，这不是挺简单的逻辑吗

Battle

Mar 13, 2015

有一个东西叫火车头

bingu

Mar 13, 2015

wget ？

Tink

PRO

Mar 14, 2015 via iPhone

二楼这个办法不错，主要是ip的问题