你们想要的 Tumblr 爬虫

# -*- coding=utf-8 -*-
from threading import Thread
import Queue
import requests
import re
import os
import sys
import time


api_url='http://%s.tumblr.com/api/read?&num=50&start='
UQueue=Queue.Queue()
def getpost(uid,queue):
    url='http://%s.tumblr.com/api/read?&num=50'%uid
    page=requests.get(url).content
    total=re.findall('<posts start="0" total="(.*?)">',page)[0]
    total=int(total)
    a=[i*50 for i in range(1000) if i*50-total<0]
    ul=api_url%uid
    for i in a:
        queue.put(ul+str(i))


extractpicre = re.compile(r'(?<=<photo-url max-width="1280">).+?(?=</photo-url>)',flags=re.S)   #search for url of maxium size of a picture, which starts with '<photo-url max-width="1280">' and ends with '</photo-url>'
extractvideore=re.compile('/tumblr_(.*?)" type="video/mp4"')

video_links = []
pic_links = []
vhead = 'https://vt.tumblr.com/tumblr_%s.mp4'

class Consumer(Thread):

    def __init__(self, l_queue):
        super(Consumer,self).__init__()
        self.queue = l_queue

    def run(self):
        session = requests.Session()
        while 1:
            link = self.queue.get()
            print 'start parse post: ' + link
            try:
                content = session.get(link).content
                videos = extractvideore.findall(content)
                video_links.extend([vhead % v for v in videos])
                pic_links.extend(extractpicre.findall(content))
            except:
                print 'url: %s parse failed\n' % link
            if self.queue.empty():
                break


def main():
    task=[]
    for i in range(min(10,UQueue.qsize())):
        t=Consumer(UQueue)
        task.append(t)
    for t in task:
        t.start()
    for t in task:
        t.join
    while 1:
        for t in task:
            if t.is_alive():
                continue
            else:
                task.remove(t)
        if len(task)==0:
            break


def write():
    videos=[i.replace('/480','') for i in video_links]
    pictures=pic_links
    with open('pictures.txt','w') as f:
        for i in pictures:
            f.write('%s\n'%i)
    with open('videos.txt','w') as f:
        for i in videos:
            f.write('%s\n'%i)


if __name__=='__main__':
    #name=sys.argv[1]
    #name=name.strip()
    name='mzcyx2011'
    getpost(name,UQueue)
    main()
    write()

Supplement 1 · Oct 29, 2016

用法是：
直接改掉那个 name 就行

Supplement 2 · Oct 31, 2016

我不会提供 name list 的，不然会被关小黑屋的

52 replies • 2018-09-22 18:22:54 +08:00

miketeam

Oct 28, 2016 via iPhone

Mark

TKKONE

PRO

Oct 29, 2016

忘了去重了！在 write 函数里面
videos=list(set(videos))
pictures=list(set(pictures))

sammiriam

Oct 29, 2016

mark ，明天起来再看

wjm2038

Oct 29, 2016 via Android

mark

weipang

Oct 29, 2016 via iPhone

然而不会用

cszhiyue

Oct 29, 2016

加个下载功能
https://gist.github.com/zhiyue/f7121aefc00640cb13bb0eded10c5312.js

TKKONE

PRO

Oct 29, 2016 via iPhone

@cszhiyue Python 下载没多少意义，下载起来慢。所以我是写出文件，可以用迅雷下载

aksoft

Oct 29, 2016

刚需啊，出售营养快线！

TKKONE

PRO

Oct 29, 2016 via iPhone

@weipang 改个 name 就够了，然后直接运行

TKKONE

PRO

Oct 29, 2016 via iPhone

@aksoft 个人网站上目前有 5000 多个解析过的博客😝

liuxingou

Oct 29, 2016

@tumbzzc

正解，解析出地址，让下载工具下载，最高效率了。

aksoft

Oct 29, 2016

@tumbzzc 哪呢

programdog

Oct 29, 2016

感谢楼主

TKKONE

PRO

Oct 29, 2016 via iPhone

@aksoft 最下面

freaks

Oct 29, 2016 via Android

这样的在线解析不要太多(⊙o⊙)哦！😂

0915240

Oct 29, 2016

olddrivertaketakeme

Nicksxs

Oct 29, 2016

不是被墙了么， vps 上下吗

cszhiyue

Oct 29, 2016

@tumbzzc 开了 8 进程下载并不觉得慢啊。是什么理由导致慢呢？

exoticknight

Oct 29, 2016

这东西是好，但是我觉得爬出提供资源的 tumblr 名字更重要

TKKONE

PRO

Oct 29, 2016 via iPhone

@freaks 我的网站放在过外 vps 上，也是在线解析

TKKONE

PRO

Oct 29, 2016 via iPhone

@exoticknight 名字没办法

guokeke

Oct 29, 2016 via Android

Mark

cevincheung

Oct 29, 2016

然后就可以 wget 了？

exalex

Oct 29, 2016

能不能简述下爬虫效果。。。

guonning

Oct 29, 2016 via Android

收藏了

LeoEatle

Oct 29, 2016

name 改成什么好，能否给个名单: )

yangonee

Oct 29, 2016

求 name_list

lycos

Oct 29, 2016 via iPad

mark

leetom

Oct 30, 2016

@cszhiyue

下载到一半会这样

Traceback (most recent call last):
File "turmla.py", line 150, in <module>
for square in tqdm(pool.imap_unordered(download_base_dir, urls), total=len(urls)):
File "/home/leetom/.pyenv/versions/2.7.10/lib/python2.7/site-packages/tqdm/_tqdm.py", line 713, in __iter__
for obj in iterable:
File "/home/leetom/.pyenv/versions/2.7.10/lib/python2.7/multiprocessing/pool.py", line 668, in next
raise value
Exception: Unexpected response.

thinks

Oct 30, 2016 via Android

Mark ，哎，老司机一言不合就发车啊。

sangmong

Oct 30, 2016

mark

errorlife

Oct 31, 2016

没人知道 www.tumblrget.com 吗

mozutaba

Oct 31, 2016

@errorlife 无效啊

errorlife

Oct 31, 2016

@mozutaba 上梯子=。=

Nutlee

Oct 31, 2016

战略 Mark

iewgnaw

Oct 31, 2016

不是有现成的 API 吗

TKKONE

PRO

Oct 31, 2016

@iewgnaw 这不就是用 api 吗

znoodl

Oct 31, 2016 via iPhone

我也用 golang 爬过。。。后来被墙就没搞了

Layne

Oct 31, 2016

默默点个赞 :)

itqls

Oct 31, 2016

一天到晚搞事情

weaming

Oct 31, 2016

搞事搞事

TKKONE

PRO

Oct 31, 2016

@itqls
@weaming
你们别搞事啊

GreatMartial

Nov 1, 2016 via Android

@tumbzzc 楼主，我要访问你的网站，我要做的你粉丝😄

TKKONE

PRO

Nov 1, 2016

@GreatMartial 少儿不宜哈哈哈

firefox12

Nov 1, 2016

下载的那个脚本
Traceback (most recent call last):
File "./1.py", line 138, in <module>
getpost(name, UQueue)
File "./1.py", line 27, in getpost
total = re.findall('<posts start="0" total="(.*?)">', page)[0]
IndexError: list index out of range

Doggy

Nov 5, 2016

with open('pictures.txt','r') as fobj:
for eachline in fobj:
pngurl=eachline.strip()
filename='.//getpic//test-{0}.jpg'.format(i)
print '[-]parsing:{0}'.format(filename)
urllib.urlretrieve(pngurl,filename)
i+=1