百思不得其解，请教一个豆瓣相册的爬虫问题 - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 4001 days ago, the information mentioned may be changed or developed.

诸位大牛我刚刚学python遇到个百思不得其解的问题，我想爬豆瓣的一些图片，并下载到e:/tu 目录中，用的 re， urllib 两个库，程序我认真检查就是不知道问题出在哪，太毁信心了，能否帮我看下？拜谢！

ps：程序能够打印出所有图片的地址，问题应是在下载那，我应该如何修改呢？

#coding = utf-8

import re

import urllib

orin_html= urllib.urlopen("http://www.douban.com/photos/album/138010643/?start=0").read()

imgreg = re.compile(r'img.\..*jpg')

imglist = re.findall(imgreg,orin_html)

'''
需要说明的是，一直到这里都没有问题，能够打印每张图片的链接
'''

x = 0
for i in imglist:
urllib.urlretrieve(i,'e:/tu/%s.jpg' % x)
x = x + 1

百思不得其解

14 replies • 2015-05-29 13:59:52 +08:00

1

rigi

OP

May 28, 2015

有没有可能是豆瓣不能用urllib.urlretrieve 直接爬取下载？

2

kslr

May 28, 2015 via Android

你这里面没有存到本地的代码啊 ( 代码搜下就知道

3

fy

May 28, 2015

直接上 requests，管他urllib1 urllib2 urllib3的

4

kslr

May 28, 2015 via Android

1

擦没看清楚明天上班回答你

5

fy

May 28, 2015

1

拿到链接以后

f = save('xxx.jpg', 'wb')
f.write(requests.get(url).content)
f.close()

6

fzinfz

May 28, 2015

1

imgreg = re.compile(r'http://img.\..*jpg')
试下
下次记得把错误贴出。。。

7

gongpeione

May 28, 2015

1

试了下没啥问题的样子 0 0 错误提示是什么？

8

hooluupog

May 29, 2015

1

这样改了下，可以了：
urllib.urlretrieve('http://'+i,'d:/tu/%s.jpg' % x)

9

rigi

OP

May 29, 2015

@hooluupog 谢谢大牛，找来找去，原来原因处在没加'http://'上。。跪了，在浏览器中不加'http://'也能打开图片，跑程序就不行了

10

rigi

OP

May 29, 2015

拜谢楼上各位！

11

decken

May 29, 2015 via Android

@rigi 浏览器帮你自动加了

12

rigi

OP

May 29, 2015

@decken 是的后来经过提醒才知道

13

mozartgho

May 29, 2015

@rigi 求分享下爬豆瓣相册的代码啊

14

rigi

OP

May 29, 2015

@mozartgho 都在上面啊，看8楼的回复。改完之后就可以下了。这段代码优化的地方太多了，我水平太菜了，刚刚学而已

About · Help · Advertise · Blog · API · FAQ · Solana · 1284 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 45ms · UTC 23:43 · PVG 07:43 · LAX 16:43 · JFK 19:43
♥ Do have faith in what you're doing.