这 50w+的网址,完全不重复, 而且只爬个首页
大家觉得用 requests 还是 scrapy ?
能说说这种场景下,两者的优势吗?
谢谢
1
bazingaterry 2017-08-17 12:25:53 +08:00 via iPhone 1
一个是爬虫框架,一个是 HTTP Client 库,有得比吗?
除非是很不熟悉 Python,不然果断 Scrapy 啊。 |
2
e9e499d78f 2017-08-17 12:48:48 +08:00 1
wget
|
3
cdwyd 2017-08-17 13:00:18 +08:00 via Android 1
才 50w,requests 就行
|
4
tennc 2017-08-17 14:29:48 +08:00 1
requests 遍历打开网址,只存储 首页~ 就好了~~
|
5
misaka19000 2017-08-17 14:30:23 +08:00 via Android 1
50w,没什么区别
|
6
misaka19000 2017-08-17 14:30:42 +08:00 via Android 1
熟悉哪个用哪个
|
7
liangmishi 2017-08-17 14:54:46 +08:00 via Android 1
感觉两者都可以,还可以用 aiohttp 这个异步库,50 万不用多久就可以跑完了
|
8
terrawu 2017-08-17 15:03:21 +08:00 1
像这种逻辑不复杂又追求速度的话,elrang 或者 go。我的结果是,主流方案中 erlang 效果最佳。
|
9
wlsnx 2017-08-17 15:49:06 +08:00 1
没区别
|
10
fiht 2017-08-17 20:49:28 +08:00
最省心的解决办法应该是给我 500 块我给你数据。
不信的话你自己试试看 =、= |