地址在这里 zhihu_fun Github,求 star !!!!
。。。嗯,其实也可以爬其他方面的东西,但是目前只支持抓图片,其实这不是我的本意,我是想抓技术方面的东西的,但是我同事想要看这个,所以我就先抓这些图片了。。。Python 菜鸟一枚,代码写的很烂,还望各位大神多多指教
新版知乎部分页面用 React 重写了,必须得加载 JS ,很多加载啥的都需要点击,所以我就用到了 Selenium
单纯的想写一个爬虫而已
1
ProjectSky 2017-04-02 15:30:18 +08:00
一百次点击,无人回复,干的漂亮。
|
2
jimmy66 2017-04-02 16:11:19 +08:00 via iPhone
厉害了
|
3
AltairT 2017-04-02 16:19:04 +08:00
营养跟不上啊...农村人还是在 B 乎上 Block 这些话题吧
|
4
Hello1995 2017-04-02 16:39:20 +08:00 via Android
提醒:_b 去掉试试😏
|
6
fy 2017-04-02 18:24:08 +08:00
楼主 66666
|
7
Aspx 2017-04-02 19:45:01 +08:00
star 已送
|
8
phithon 2017-04-02 19:51:14 +08:00
这必须赞一波
|
9
guyskk 2017-04-02 21:06:36 +08:00
已 star ,过了不到一个小时开始非常慢了,难道是把知乎扒光了?
|
10
akira 2017-04-02 21:07:55 +08:00
按照关键字搜帖子的时候,发现很多帖子里面的图片都是无关的。 好奇怎么过滤的
|
11
zhihaofans 2017-04-02 21:09:37 +08:00 1
让我想起了知乎上这个收藏 https://www.zhihu.com/collection/60771406 (大胸妹子 - 收藏夹 - 知乎)
|
12
AnyISalIn OP @guyskk 你配置文件中的 url_generate_time 设置为多少,默认为 30s ,意味着爬问题只爬 30s, 剩下的就是怕回答中的图片,我爬了 20 多 g 了,设置为 None 就可以一直爬下去。。
|
14
falcon05 2017-04-02 22:25:48 +08:00 via iPhone
很好,收藏了
|
16
AnyISalIn OP @guyskk 嗯,你设置 url_generate_time 为 None 就能一直爬了,我已经爬了 22G 了。。。
|
17
Kalv8n 2017-04-03 08:10:45 +08:00 via Android
估计能扒到 nfsw 这类管理员来不及删的东西
|
20
jyf 2017-04-03 11:22:55 +08:00
知乎不做 ip 限次?
|
22
lonelygo 2017-04-03 13:07:19 +08:00
已 S&F
|
23
Vinceeeent 2017-04-03 13:33:41 +08:00 via Android
先 mark ,回去 star
|
24
coltguo 2017-04-03 16:30:47 +08:00
哎家里穷,不要发这样的照片
|
25
huage 2017-04-03 18:36:46 +08:00
实践出真知!
|
26
snoopygao 2017-04-03 20:53:10 +08:00
专门抓大腿的
|
29
c4fun 2017-04-04 00:43:58 +08:00
很好,已经 star
|
30
airbasic 2017-04-04 02:16:42 +08:00
道友想法很不错啊 我也在微博爬呢-。-
https://github.com/airbasic/weibo_album_spider |
31
cpygui 2017-04-04 14:21:24 +08:00
改改我去爬 tumblr :)
|
32
wellhome 2017-04-06 15:51:24 +08:00 via iPhone
支持楼主
|
33
mingyun 2017-04-15 22:35:23 +08:00
感谢楼主,妹子到手了
@zhihaofans 感谢,哈哈 |