项目地址: https://coding.net/u/raawaa/p/jav-scrapy/git
jav-scrapy ,一个爬取 AV 磁力链接的小爬虫。

$ git clone https://git.coding.net/raawaa/jav-scrapy.git
$ cd jav-scrapy
$ npm install # 安装 npm 包依赖
$ npm link # 使 jav-scrapy 全局可执行
Usage: jav [options]
Options:
-h, --help output usage information
-V, --version output the version number
-p, --parallel <num> 设置抓取并发连接数,默认值: 2
-t, --timeout <num> 自定义连接超时时间(毫秒)。默认值: 10000
-l, --limit <num> 设置抓取影片的数量上限, 0 为抓取全部影片。默认值: 0
-o, --output <path> 设置磁链抓取结果的保存位置,默认为当前用户的主目录下的 magnets.txt 文件
更新了一下,增加了搜索功能,比如:
$ jav -s ipz # 只抓取以 ipz 开头的番号
$ jav -s ipz-634 # 只抓取番号 ipz-634
又增加了「下载影片封面」的功能,到此为止觉得已经够自己用的了,短期不会再更新了,放几个用例吧:
# 下载影片封面到~/porn_covers/目录下,图片文件名为番号,并行下载数为 10
$ jav -c ~/porn_covers/ -p 10
# 抓取 ipz 开头的所有番号的磁链,并保存在~/magnets.txt 中,并行抓取数 20
$ jav -s ipz -p 20 -o ~/magnets.txt
# 抓取番号 ipz-634 这部影片的磁链
$ jav -s ipz-634 -o ~/magnet.txt
# 抓取「连裤袜」主题的所有影片磁链...并行数 10
$ jav -b http://www.javbus.in/genre/28 -p 10 -o ~/magnets.txt
1
iShao Oct 31, 2015 via Android
从来只看自己喜欢的演员的作品…已经收藏全了
|
3
cxbig Oct 31, 2015
恭喜 LZ 找到学习的原动力
|
6
leavic Oct 31, 2015
其实我前两天写了个 scrapy 爬虫,把 javbus 上的所有 AV 信息都抓完了,一共 8 万多部。
|
7
scream7 PRO 看不懂的样子
|
9
Chappako Oct 31, 2015
不知道这样或者分享番号,算不算违法
|
10
Andy1999 Oct 31, 2015 via iPhone
高端技术传播淫秽资料罪加一等
|
11
leavic Oct 31, 2015
@raawaa 你从 page/1 这样开始抓的话,最终只能抓到不到 50 页,这是 wordpress 分页插件造成的,我是从演员表那里开始抓的,女优数都有 3 万多。
|
12
exoticknight Oct 31, 2015
代码写的不错……下载来
学代码 学代码 学代码 |
13
Hipponensis Oct 31, 2015
参考一下,我去写个 Scrapy 抓。
|
14
DennyDai Oct 31, 2015 嗯我只看第十九行代码就够了
|
16
leavic Oct 31, 2015 @raawaa 那他现在还放大了页面数了,我最开始抓的时候只有 48 页,抓完后我就觉得数据不对,调到 48 也一看是两个月前的数据,这网站都这么久了。
其实我觉得 javbus 也是抓的 dmm ,然后让网友自己提交磁链形成的,否则我抓取来的 8 万多条数据,这要人工编辑得花多大功夫, 3 万多个女优的名字能全知道的就不可能是人类。 |
19
xwartz Oct 31, 2015 |
20
Kuro Oct 31, 2015
能否抓取有 HD 种子的片子,前几天想实现发现因为 javmoo 反爬虫就搁置了。
|
22
Kuro Oct 31, 2015
发现 javbus 这个网站已经有高清分类了,不错~
|
23
ipconfiger Oct 31, 2015
1024
|
24
qile1 Oct 31, 2015 via Android
一直想弄一个可仪抓取电影网站图片及介绍的爬虫,把家里的电影介绍都更新,以后没网本地观看,可惜不会
|
26
lk920724 Oct 31, 2015
electron-v0.33.9-darwin-x64.zip 这个貌似下载的很慢额
|
28
JiaFeiX Oct 31, 2015 via iPhone
请问 gif 图用的什么软件生成的?
|
29
zzy8200 Oct 31, 2015 via iPhone
然而服务器根本挂不了 BT ……
|
30
GPU Oct 31, 2015
楼主想撸出血啊?
|
31
ChiangDi Oct 31, 2015
楼主都是有孩子的人了啊... 直接找老婆不就好了......
|
32
kn007 Oct 31, 2015
高调收藏。。。
|
33
kn007 Oct 31, 2015
话说源码放 github 估计会有很多星星。。。
|
34
fyyz Oct 31, 2015
屌丝进入高科技领域依然是屌丝(逃
|
35
raawaa OP @JiaFeiX 用的 silentcast
$ sudo add-apt-repository ppa:sethj/silentcast $ sudo apt-get update $ sudo apt-get install silentcast |
36
raawaa OP |
37
bingu Oct 31, 2015 via iPad
这贴干货真多。
|
38
raawaa OP |
39
ready2race Oct 31, 2015
1943 年,美国心理学家亚伯拉罕·马斯洛在《人类激励理论》论文中提出---生理需要是推动人们行动最首要的动力
|
41
hantsy Oct 31, 2015
好几年没看 AV 了,,,这么多怎么看得完。也不推荐一下哪个好一点。
|
42
iloveayu Oct 31, 2015 via iPad
丧心病狂。。。
|
43
LWXYFER Oct 31, 2015
学习学习,我要自己抓。
|
44
sxd Oct 31, 2015
我只能说 域名太屌
|
45
VmuTargh Oct 31, 2015 via Android
噫,好污
|
47
gqfBzoLVY3Wl4Tng Oct 31, 2015
|
48
moe3000 Oct 31, 2015
污得不行啊
|
49
yuzhouwww Oct 31, 2015
get
|
50
LancerComet Oct 31, 2015
这么污的东西必须兹词
|
52
jerryhethatday Oct 31, 2015
楼主制作这个 gif 的工具叫啥?看起来挺高端的
|
53
coldfog Oct 31, 2015
为什么我点进来整个页面都黑了?你做了什么?
|
54
raawaa OP @jerryhethatday 叫 silentcast
|
56
linux40 Oct 31, 2015
我又多了一个网站。。。
|
57
aszxqw Oct 31, 2015
npm install 好慢好慢。
|
58
raawaa OP @aszxqw 可以用淘宝的镜像: npm.taobao.org
|
59
49 Oct 31, 2015 via Android
收藏比回复还多…
你们啊!绅士 |
62
cszchen Oct 31, 2015
我正在想干这个事呢,然后做一个客户端
|
65
acrisliu Oct 31, 2015 via Android
楼主有没有 nodejs 入门教程推荐?
|
66
pabno Oct 31, 2015
baseUrl 这个变量定义的很有深度,值得好好研究
|
69
raawaa OP @acrisliu 其实我 node.js 没怎么深入学,什么流啊子进程啊之类的都不会。我现在还处在 javascript 打基础的阶段。
javascript 的话我强烈推荐 Kyle Simpson 写的《 You Don't Know JS 》系列丛书,或者看此人在 pluralsight 上开的「 Advanced Javascript 」视频课程。这些在网上都有资源下载。 |
72
wbsdty331 Nov 1, 2015
污,不过我喜欢 23333
|
74
XianZaiZhuCe Nov 1, 2015
认真的,小心被查,不开玩笑
|
76
coolicer Nov 2, 2015
哈哈,不错。
|
77
godjarl Nov 2, 2015
这是我学习 node 的理由嘛
|
78
4912941 Nov 2, 2015
<img src="
"/>为什么会报错呢 |
79
raawaa OP @4912941 window 下好像是会有点问题。要注意 2 点:
- 请跳出 jav-scrapy 这个目录再运行 jav 命令,不要在 jav-scrapy 目录里直接运行 jav 命令,如果实在要在 jav-scrapy 目录里运行的话,运行 node jav.js ,后跟选项; - windows 里不要用'~'之类的 Linux 下特有的路径符号。 |
81
0xfan Nov 2, 2015
80 回复, 178 人收藏,你们啊
|
82
hi54yt Nov 2, 2015
|
84
kaiwei Nov 5, 2015
弱问磁力链接是种子吗 还是直接就能下载电影了?
|
86
sinux Nov 6, 2015
想问一下,那个总进度的不断前进的命令条是怎么做的?
|
87
raawaa OP |
89
flw01 Nov 25, 2015
我们现在在招聘 node.js,坐标广州,感兴趣的私聊我哈, http://www.lagou.com/jobs/1284459.html
|
90
greatghoul Dec 1, 2015
好样的。
|
91
qingwalashi Dec 4, 2015
我用 python 尝试写了爬虫,有两个链接,没有任何返回值。问题,一个是网站的图片貌似写了判断,代码下载图片会显示一个拒绝的网站。还有一个是,你如何获得磁力链接的地址的?我直接打开 XHR 的链接,没有任何返回值。
|
92
raawaa OP @qingwalashi 图片就是直接获取图片资源的 url 然后下载呗;磁链就是直接从 html 文本里提取呗。
|
93
qingwalashi Dec 5, 2015
@raawaa 磁力链接获 html 解析不到撒
|
94
raawaa OP @qingwalashi 你说的是「 javbus 」这个站么?
|
95
pangtianyu Dec 13, 2015
其实这个好像算是传播盗版……
|
96
0rangeT1ger Dec 15, 2015
对于我等来说, 第 16 行代码最为重要.
|
97
halbert Dec 18, 2015 via Android
@ready2race 一百多年前 弗洛伊德就说过 “力比多”是人类一切活动的基础…
|
98
huage Dec 22, 2015
学以致用啊,很好!
|
99
eraise Dec 22, 2015
一直不知道如果不工作,代码还能干吗,现在知道了。。
|