技术渣，谁给写个爬虫，感谢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2011 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬虫

详情

感谢

图片

137 条回复 • 2019-06-19 17:22:49 +08:00

1 2

❮

❯

101

onecode

2019-05-22 10:50:35 +08:00

@usingnamespace 博客园啊

102

RyanOne

2019-05-22 11:12:21 +08:00

你这直接是 json 了，PowerShell 的 Invoke-WebRequest 一把梭

103

cway

2019-05-22 11:25:51 +08:00

你的意思是把所有图片都爬下来，想想都很刺激呢

104

doctortao

2019-05-22 11:30:26 +08:00

最近流行以学习爬虫为名的开车？破站药丸啊。

105

jwh199588

2019-05-22 11:31:09 +08:00

你是想干什么，直接通过链接将图片下载到本地吗

106

loryyang

2019-05-22 11:33:20 +08:00

我很早写过一个爬桌面背景图片的爬虫，说实话，如果有反爬，就会难很多。至于谁给你写一个？写了也不给你
PS：有些*黄图*网站，会很卡，其实不是他网站问题，而是好多人在爬他

107

dongya

2019-05-22 11:50:02 +08:00

您尝试访问的网站类型属于[访问网站 /成人内容]已经被上网策略[ACL]拒绝访问。如果有疑问，请联系网络管理员。

108

pecopeco

2019-05-22 12:21:04 +08:00

口味太重。。。爬不动。。

109

killerv

2019-05-22 12:39:43 +08:00

本人穷，谁给点钱

110

killerv

2019-05-22 12:41:23 +08:00

楼主好像在开车

111

hhhfffhhh

2019-05-22 12:42:52 +08:00

爬了
都不是高清的还带水印没啥意思

有高清的不带水印的吗？手动狗头

112

xiaobai9927

2019-05-22 12:44:41 +08:00

这都是现成的接口了，还不会爬啊。。。
我怀疑楼主在开车。。。

113

cway

2019-05-22 12:56:35 +08:00

这其实不算爬虫了，提交 http 请求获得 json 返回值，然后根据一定规则在电脑里建以 title 为名的文件夹，把图片都下载进去

114

DeWhite

2019-05-22 12:58:52 +08:00

@whitehack 这架飞机真实

115

DeWhite

2019-05-22 13:03:34 +08:00

@A1321A 厉害了，开飞机。
我怀疑本贴很多人都开飞机，证据确凿了。

116

dorothyREN

2019-05-22 13:36:26 +08:00

我怀疑你在开车，而且我好像也有证据

117

c4f36e5766583218

2019-05-22 14:11:21 +08:00

[Imgur]( https://imgur.com/zCnmIO0)

118

c4f36e5766583218

2019-05-22 14:12:21 +08:00

[Imgur](

)

119

dunn

2019-05-22 14:33:07 +08:00

一点都不助人为乐

爬虫

120

xavier007

2019-05-22 14:35:08 +08:00

关键时刻还得看拍黄片(PHP)
```php
$i =1;
while (true) {
$content = file_get_contents("http://adr.meizitu.net/wp-json/wp/v2/posts?page={$i}&per_page=40");
$array = json_decode($content, true);
var_dump($array);
if ($array && count($array) > 0) {
foreach ($array as $one) {
$thumb_src = file_get_contents($one['thumb_src']);
file_put_contents('./img/' . $one['title'] . '.jpg', $thumb_src);
}
} else {
break;
}
usleep(1000);
$i++;
}
```

121

510908220

2019-05-22 14:48:44 +08:00

写个个简单的。https://gist.github.com/510908220/fa5ce80f164515cf7e2e094799d45bda

122

Rizio

2019-05-22 14:54:49 +08:00

直接看 pronhub 不好？再不然 C6

123

daguaochengtang

2019-05-22 14:59:02 +08:00

@registerrr 我也好奇这个网站首页是什么

124

Tuuure

2019-05-22 15:31:25 +08:00 via Android

@onecode #22 那就做个爬虫工具，爬取网页上所有的图片链接并显示。

125

CatTom

2019-05-22 16:35:45 +08:00

貌似所有写爬虫的人第一练手都是妹子图（手动狗头）

126

jaylee77

2019-05-22 16:46:22 +08:00

这个贴我已经收藏了

127

Kazuhira

2019-05-22 16:51:44 +08:00 via Android

DIY...

128

sethverlo

2019-05-22 16:54:41 +08:00

能不能在标题里加个 NSFW ……

129

tikazyq

2019-05-22 17:12:39 +08:00

写好的爬虫可以用爬虫平台 Crawlab 来管理，试一下呗，https://github.com/tikazyq/crawlab

130

fank99

2019-05-23 09:57:35 +08:00

我怀疑你在开车。但我又没有证据

131

rffan

2019-05-23 10:23:00 +08:00

哇，我都不敢点开你的 JSON 里面的值。这车开的不错，我收藏一下。

132

evlos

2019-05-23 11:04:07 +08:00 via iPhone

Dick-driven Development 简称 DDD

133

overkazaf

2019-05-23 14:18:20 +08:00

import os
import time
import requests
import sys

def fetch(total_page, per_page):
url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
image_path = "./images"

if not os.path.exists(image_path):
os.mkdir(image_path)

os.chdir(image_path)

for i in range(1, int(total_page)):
url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
r = requests.get(url)
d = r.json()
for item in d:
img_src = item['thumb_src']
cmd = "wget -c " + img_src
os.system(cmd)
time.sleep(0.1)
print 'Images have been succefully downloaded to ./images folder'

if __name__ == "__main__":
if len(sys.argv) == 3:
[f, total_page, per_page] = sys.argv
fetch(total_page, per_page)
else:
fetch(18, 100)

我是雷锋，拿走不谢

134

overkazaf

2019-05-23 14:31:10 +08:00

格式有问题，codes 改到这里了： https://shimo.im/docs/uuUDfLT1yTgWtNFm/

135

hhzc

2019-06-19 14:54:14 +08:00

@zhtttyecho 110 的无门槛今天还能领吗？

136

zhtttyecho

2019-06-19 15:26:52 +08:00

@hhzc 活动截止到 6 月 18 号蛤，话说，你为什么在这个帖子艾特我。。。

137

hhzc

2019-06-19 17:22:49 +08:00

@zhtttyecho 那帖回复提示权限不够，所以在这里试试。

1 2

❮

❯