1
for4 2013-03-12 09:22:08 +08:00 4
Python
+requests +lxml +celery |
4
xieren58 2013-03-12 09:40:41 +08:00
Node + jquery
|
7
shinwood 2013-03-12 10:03:05 +08:00 2
|
8
greatghoul 2013-03-12 10:13:34 +08:00
@shinwood 这个用起来的确骚爽。
|
9
colincat 2013-03-12 10:13:35 +08:00 via Android
java
|
10
for4 2013-03-12 10:14:06 +08:00 1
@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 |
11
wingoo 2013-03-12 10:53:32 +08:00
scrapy
|
12
twm 2013-03-12 10:55:26 +08:00
JAVA PHP
|
13
dulao5 2013-03-12 17:40:21 +08:00
PHP + curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 |
14
xjay 2013-03-12 20:05:01 +08:00
scrapy
不解释 |
15
PrideChung 2013-03-12 20:09:22 +08:00
ruby+norogiri
http://nokogiri.org/ |
16
amxku 2013-03-12 20:30:18 +08:00
Python
+curl +celery |
17
1up 2013-03-12 20:36:18 +08:00
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
|
18
cloverstd 2013-03-12 21:14:19 +08:00
Python: urllib, urllib2, re
|
19
sobigfish 2013-03-12 22:18:01 +08:00
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); |
20
chuck911 2013-03-12 22:34:53 +08:00
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 |
23
Linxing 2013-03-13 01:23:03 +08:00 via Android
python beautifulsoup urlib爬文章
|
25
crazybubble 2013-03-13 04:34:27 +08:00 1
@atom 用regex来做html parsing不推荐,我推荐用jsoup。
|
27
workaholic 2013-03-13 08:04:13 +08:00 1
php+snoopy
|
28
akalanala 2013-03-13 08:48:24 +08:00
@crazybubble 同推荐.
|
29
binux 2013-03-13 09:21:19 +08:00
python + tornado AsyncHTTPClient + PyQuery
|
30
sonicwu 2013-03-13 09:24:32 +08:00
Java
+ jsoup Python + Beautiful Soup + urllib + lxml |
31
dingyaguang117 2013-03-13 10:05:15 +08:00
Python
+ Beautiful Soup + lxml + Scrapy |
32
atom 2013-03-13 13:59:52 +08:00
|
33
zoran 2013-03-14 13:12:55 +08:00
Java 可以试试这个 https://github.com/zhuoran/crawler4j
|
34
yangxin0 2013-03-14 13:42:31 +08:00
看过别人用C
|
35
Xrong 2013-03-14 18:43:04 +08:00
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
|
36
zdwalter 2013-03-15 16:21:50 +08:00
phantomjs, casperjs
|
37
zhouquanbest 2013-03-16 18:17:38 +08:00
python + pyquery 是个好东西
会jquery就能写 |
38
nojt7Zm 2013-03-17 21:51:02 +08:00
php
|
39
kingwkb 2013-03-17 21:58:54 +08:00
|
40
gameending 2013-03-17 22:09:33 +08:00
python跟java都写过,python很简洁,java的话我觉得也还不错
|
41
lbj96347 2013-03-17 23:08:21 +08:00
node.js or python. :-)
|
42
kdepp 2013-07-07 23:03:59 +08:00
node + cheerio
|
43
briefcopy 2014-08-18 21:22:21 +08:00
用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector
|
44
cangbaotu 2016-05-24 17:12:36 +08:00
http://www.shenjianshou.cn/ 神箭手云爬虫
|
45
ssllff123 2016-10-10 14:56:50 +08:00
|
46
billyellow 2016-11-16 18:48:53 +08:00 1
推荐试下这个 http://www.zaoshu.io
|
47
GrahamCloud 2017-02-23 14:11:42 +08:00
@billyellow 好的!
|
48
jiankaikey 2018-11-30 18:50:29 +08:00
右键->另存为
|