看了大多数爬虫,都是 java 的。
现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧
直接把 h tml 全部 down 下来就行。自动按照正则去爬
1
13348859836 Apr 27, 2016
python 的爬虫框架多 随便找一个吧
|
2
zhouxuchen Apr 27, 2016
life is short, you need pyquery
|
3
xiamx Apr 27, 2016
html is context free grammar btw
|
4
jnduan Apr 27, 2016
java 的就不能本地运行了?
那你用 Offline Explorer 吧 |
5
sadhen Apr 27, 2016
不太理解楼主的需求
貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么? 还是普通的爬虫框架? |
6
pr2b OP |
7
cxbig Apr 27, 2016
php/ruby/python 随便哪个语言都可以,手写一个百来行。
|
8
SCaffrey Apr 27, 2016
nodejs/python
|
9
Tink PRO 这个貌似叫离线浏览器?
|
10
wmhx Apr 27, 2016
wget 啊, 一丢丢的
|
11
qq839994901 Apr 27, 2016
scrapy
|
12
Ouyangan Apr 27, 2016
java 不能本地么......
|
13
break Apr 27, 2016 via iPhone
都是 html 的话, wget 就可以了, wget 的镜像复制命令
|
14
imn1 Apr 27, 2016
爬虫很多,能用正则的不多
|