1
O21 OP |
2
sunny1992 2014-07-15 00:02:24 +08:00
给力!
|
3
xiandao7997 2014-07-15 00:03:48 +08:00 via Android
写个web的轮询…然后把图片保存下来…
|
4
loveminds 2014-07-15 01:52:38 +08:00
这是做啥的
|
6
O21 OP 来个演示
|
7
loveminds 2014-07-15 07:45:42 +08:00
@O21 可以采集任何小组图片吧,另外所谓的代理是S5?127.0.0.1:1080 127.0.0.1:7070这样子?
|
8
loveminds 2014-07-15 07:46:32 +08:00
@O21 例如,html2 = gethtml2('http://www.douban.com/group/cat/discussion?start=%d'%num)
|
9
mengskysama 2014-07-15 07:59:50 +08:00 via Android
lz可以试试加一个代理类,然后抓去一个代理公布页面的所有代理,随机选取。
|
10
loveminds 2014-07-15 09:09:03 +08:00
@mengskysama 127.0.0.1,代理服务端再切换不同的Shadowsocks
|
11
O21 OP @mengskysama 嗯 这是我下一步要做的事情 😄
|
14
O21 OP @loveminds 话说不用啊 直接找个http代理就行 你下载 http://162.244.92.122/DouBanMZ.zip 这个里面有说明啊
|
17
amon 2014-07-15 10:33:19 +08:00
方便的话可以弄个web版的吧,v2exmac党居多,哈哈。
|
20
Macrov 2014-07-15 12:39:59 +08:00
哎我这瞎眼,看成python处女采集器了。。。。
|
21
withrock 2014-07-15 13:06:46 +08:00
|
22
chenggiant 2014-07-15 15:02:08 +08:00
@O21 嗯,刚用mac试了下。不过路径还是看了下源码才知道该怎么输...
|
23
O21 OP @chenggiant :) 嘿嘿 现在已经更新啦。 自动采集代理 随机选取一个 进行采集
|
24
O21 OP @Fotix
@shyrock @sujin190 @dingyaguang117 @puyo @eslizn @WhyLiam @kawaiiushio @paulw54jrn @payne @deslife @sunjourney @cocalrush @vigoss @1130335361 @qdsearoc @gelupk @zephyryu 代码更新啦 嘿嘿 增加内容 程序自动采集代理 采集代理后随机选择 然后自动下载图片保存 现在只需要输入 需要采集的数量就可以了 下载链接还是 http://162.244.92.122/DouBanMZ.zip |
25
ChiangDi 2014-07-16 01:11:16 +08:00 via Android
刚去看了下那个小组,好奇怪的,为啥那么多人去晒
|
26
reorx 2014-07-16 01:16:13 +08:00 1
感谢楼主让我知道这个小组,认识了这个世界的广阔…
|
27
O21 OP 连夜把 获取任何小组 跟 模拟浏览器访问 美化程序 还有默认输入什么的写好了 睡起来在发下 Python 真好玩 可以俺不会写多线程 蛋痛
|
28
paulw54jrn 2014-07-16 07:18:47 +08:00
@O21
一个主进程负责分析img url,把他们都放到Multiprocessing Queue里面,然后在多个worker thread之间共享,让worker负责具体的抓取. 不同的worker可以用不同的代理,防止屏蔽. |
29
hging 2014-07-16 09:55:04 +08:00
从前我一直不相信星座,直到公司招进来两个处女座。。。。。。。。
我真不是来黑的。。。。别打我。。。。。 |
30
zouyun5152 2014-07-16 10:37:13 +08:00
哈哈,牛逼
|
31
shyrock 2014-07-16 11:06:54 +08:00
python新手表示好奇,38行和51行的x+=1和i+=1起什么作用?
|
32
Pete 2014-07-16 12:33:58 +08:00
感谢楼主 我发现了广阔的世界 不过这个小组发现你偷偷采集会怎么样..
|
33
yangkuku 2014-07-16 12:41:04 +08:00
谢谢楼主制造了这个牛逼的程序,但是我的32位win7不能使用,好遗憾的说
|
36
O21 OP http://cn-proxy.com/ 这网站被我弄得。。数据库连接超时了。。。不是我搞挂的吧。。。
|
37
yangkuku 2014-07-16 17:53:11 +08:00
弱弱的问一下 mac下怎么跑源码?
|
38
Owenjia 2014-07-16 20:03:01 +08:00
不是有这个一个网站的么~~http://www.dbmeizi.com/
|
40
linKnowEasy 2014-08-31 16:34:01 +08:00
#coding:utf-8
import urllib.request import re import time import sys import os from imp import reload reload(sys) print ('#'*50) print ('This program is mainly collecting watercress <Do not be shy> group picture') print ('#'*50) print ('Collected before the need to enter a proxy server address, so we can prevent the douban shielding.') print ('Recommend a proxy address: http://cn-proxy.com/') print ('Only need to input the server address and port number, do not need to input HTTP') print ('Demo:127.0.0.1:8080') print ('#'*50) proxy_input = input('127.0.0.1:8087:') proxy_handler = urllib.request.ProxyHandler({'http':'%s'%proxy_input}) opener = urllib.request.build_opener(proxy_handler) urllib.request.install_opener(opener) img_LuJ = input('input path:') img_LuJ2 = os.path.abspath(img_LuJ) print(img_LuJ2) def gethtml2(url2): req = urllib.request.Request(url2) html2 = urllib.request.urlopen(req).read() return html2 def gettoimg(html2): reg2 = r'http://www.douban.com/group/topic/\d+' html2 = html2.decode('utf-8') toplist = re.findall(reg2,html2) x = 0 for topicurl in toplist: x+=1 return topicurl def download(topic_page): reg3 = r'http://img3.douban.com/view/group_topic/large/public/.+\.jpg' imglist = re.findall(b'reg3',topic_page) i = 1 download_img = None for imgurl in imglist: img_numlist = re.findall(r'p\d{7}',imgurl) for img_num in img_numlist: download_img = urllib.request.urlretrieve(imgurl,img_LuJ2 + '/%s.jpg'%img_num) time.sleep(1) i+=1 print (imgurl) return download_img page_end = int(input('Please enter the page number:')) num_end = page_end*25 num = 0 page_num = 1 while num<=num_end: html2 = gethtml2('http://www.douban.com/group/haixiuzu/discussion?start=%d'%num) topicurl = gettoimg(html2) topic_page = gethtml2(topicurl) download_img=download(topic_page) num = page_num*25 page_num+=1 else: print('Program to collect complete') 这个是我修改你的代码 python3下面跑成功但是没有获得图片 能不能帮忙看一下 |