看了大多数爬虫,都是 java 的。
现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧
直接把 h tml 全部 down 下来就行。自动按照正则去爬
1
13348859836 2016 年 4 月 27 日
python 的爬虫框架多 随便找一个吧
|
2
zhouxuchen 2016 年 4 月 27 日
life is short, you need pyquery
|
3
xiamx 2016 年 4 月 27 日
html is context free grammar btw
|
4
jnduan 2016 年 4 月 27 日
java 的就不能本地运行了?
那你用 Offline Explorer 吧 |
5
sadhen 2016 年 4 月 27 日
不太理解楼主的需求
貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么? 还是普通的爬虫框架? |
6
pr2b OP |
7
cxbig 2016 年 4 月 27 日
php/ruby/python 随便哪个语言都可以,手写一个百来行。
|
8
SCaffrey 2016 年 4 月 27 日
nodejs/python
|
9
Tink PRO 这个貌似叫离线浏览器?
|
10
wmhx 2016 年 4 月 27 日
wget 啊, 一丢丢的
|
11
qq839994901 2016 年 4 月 27 日
scrapy
|
12
Ouyangan 2016 年 4 月 27 日
java 不能本地么......
|
13
break 2016 年 4 月 27 日 via iPhone
都是 html 的话, wget 就可以了, wget 的镜像复制命令
|
14
imn1 2016 年 4 月 27 日
爬虫很多,能用正则的不多
|