本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。
总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。
设想步骤:
1、互刷文库积分,用来下载收费内容
2、用火车头采集所有类别中收费内容,按下载量顺序采集
3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
4、建站提供下载
新手啥不懂,纯瞎想,求指点,求轻喷。
1
professorz 2015-05-27 11:21:05 +08:00
互刷文库积分怎么做到
|
2
leozy2014 OP @professorz 有软件自动化,具体搜一下,见到过,忘记名字了
|
3
lincanbin 2015-05-27 11:53:41 +08:00
先找好律师,问问如果被版权所有人告了,会赔多少,掂量一下成本。
|
5
alp 2015-05-27 12:49:31 +08:00 via Android
手机版下载不需要积分的
|
6
zhaoxiting1997 2015-05-27 13:56:50 +08:00 via Android
对于不长的文档不用积分直接通过类似截图一样的方法制成PDF不是更简单。过多刷积分估计会被封。只有一下长的文档或者电子书才要用积分下载。应该做一个函数算一下。还有有些文档有完全相同的免费或便宜的文档,应当建文档名再搜索一次,根据页数和大小判断。
另:建议选用合适位置的vps,忽略dcma的,并且加密好做好网盘备份。 |
8
leozy2014 OP @zhaoxiting1997 这都是具体细节算法了,另外dcma是啥嘛?
|
9
zhaoxiting1997 2015-05-27 16:32:07 +08:00 via Android
@leozy2014 数字千年版权法。美国vps收到DCMA版权投诉,核实后会封号
|
10
gamecreating 2015-05-27 16:47:21 +08:00
不用担心盗版..别人告你的时候 你已经赚HI了...你如果没赚钱 他也懒得告你...
这就是中国现状. |
13
wondervendor 2016-04-18 01:59:33 +08:00
还不如直接共享这些账号
|