V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wengang285
V2EX  ›  分享创造

少年来一发,分享一个抓取豆瓣妹子的代码

  •  
  •   wengang285 ·
    wengang285 · 2014-10-25 17:10:27 +08:00 · 11734 次点击
    这是一个创建于 3684 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前看到有很多抓取豆瓣害羞组图片的帖子,我也凑凑热闹,发一个PHP版本的

    1、支持自动代理,无视豆瓣屏蔽
    2、记录上次下载的页数
    3、多进程下载

    只支持linux系统

    送上地址:
    https://github.com/wengang285/HotGirlClaw

    准备好你们的硬盘吧,骚年
    http://gavinwen-topic.qiniudn.com/douban.jpg
    30 条回复    2016-01-25 16:42:52 +08:00
    wengang285
        1
    wengang285  
    OP
       2014-10-25 17:15:29 +08:00
    http://gavinwen-topic.qiniudn.com/douban.jpg
    沙发不留人,为啥不能发图
    powerfj
        2
    powerfj  
       2014-10-25 17:18:34 +08:00
    豆瓣被你们这帮少年抓死去..
    wisatbff
        3
    wisatbff  
       2014-10-25 17:36:04 +08:00
    @powerfj 2333
    typedays
        4
    typedays  
       2014-10-25 17:52:54 +08:00
    对于不会玩linux的朋友来说,火车头也是个好的选择,自己写好采集规则就OK了。
    x86
        5
    x86  
       2014-10-25 18:02:53 +08:00
    硬盘存其她妹纸的照片真的好吗...被女友发现了咋办
    WhyLiam
        6
    WhyLiam  
       2014-10-25 18:26:09 +08:00
    都是为了`害羞`去的
    xiaojj
        7
    xiaojj  
       2014-10-25 18:26:45 +08:00
    代理不会被封吗?
    wengang285
        8
    wengang285  
    OP
       2014-10-25 19:32:34 +08:00
    @xiaojj 自动抓的网上的代理,很多,而且是随机用,不会拿一个代理一直访问
    shoumu
        9
    shoumu  
       2014-10-25 19:48:01 +08:00
    如果能够自动识别图片中是妹子就好了
    wengang285
        10
    wengang285  
    OP
       2014-10-25 19:50:10 +08:00
    @shoumu 有些妹子都不露脸的~
    ifishman
        11
    ifishman  
       2014-10-25 20:38:25 +08:00
    限定了php 5.6.2?
    wengang285
        12
    wengang285  
    OP
       2014-10-25 20:45:22 +08:00
    @ifishman 没有限定,配置文件填入你自己的php bin文件路径
    Luzifer
        13
    Luzifer  
       2014-10-25 20:50:13 +08:00
    @wengang285 #9 大概是说, 有几个汉子闯进来了.
    wengang285
        14
    wengang285  
    OP
       2014-10-25 20:57:25 +08:00
    @Luzifer 汉子也会晒的,要保证大家的口味
    hackshel
        15
    hackshel  
       2014-10-25 22:06:33 +08:00 via iPhone
    你们真是闲啊,代码还是写的不够多啊
    Xbluer
        16
    Xbluer  
       2014-10-25 23:04:27 +08:00 via Android
    新需求:根据性别、坐标、年龄等自动发豆油。
    wengang285
        17
    wengang285  
    OP
       2014-10-25 23:19:00 +08:00
    @Xbluer 我都没有豆瓣帐号。。
    gyorou
        18
    gyorou  
       2014-10-25 23:51:37 +08:00
    学node时候写过一个抓黄图的。
    [code](https://github.com/lengshuiyulangcn/get_porn_picture)
    自带demo。
    wangleineo
        19
    wangleineo  
       2014-10-26 00:13:54 +08:00
    @wengang285 代理地址是在哪里抓的?稳定吗?
    wengang285
        20
    wengang285  
    OP
       2014-10-26 00:22:52 +08:00   ❤️ 1
    @wangleineo http://cn-proxy.com/ http://www.xici.net.co/
    这两个,大部分都可以用
    spacewander
        21
    spacewander  
       2014-10-26 01:04:03 +08:00
    @x86 没有女朋友就不用担心了
    binux
        22
    binux  
       2014-10-26 15:06:14 +08:00   ❤️ 2
    看到你还专门写一个爬虫。。于是:
    demo.pyspider.org + 多说做数据库 + 一个html = 豆瓣害羞组读图版

    https://f.binux.me/haixiuzu.html
    wengang285
        23
    wengang285  
    OP
       2014-10-27 00:01:05 +08:00
    @binux 赞~
    laotaitai
        24
    laotaitai  
       2014-10-27 00:34:05 +08:00   ❤️ 1
    豆瓣的防爬虫机制做的很烂的, 把header里的bid换掉即可, 比如每次请求都把bid的值给换掉,用不着代理.

    不信? 看我的:https://github.com/laomayi/doubanspiders

    可直达:https://github.com/laomayi/doubanspiders/blob/master/douban/album/misc/middlewares.py 这文件看我写的bid

    搞代码多麻烦, 速度又慢.
    wengang285
        25
    wengang285  
    OP
       2014-10-27 13:51:02 +08:00
    @laotaitai 哈哈,我以为是对ip进行限制呢
    laotaitai
        26
    laotaitai  
       2014-10-27 14:05:35 +08:00
    @wengang285 要是豆瓣防爬虫的机制还没变的话, 记得给我点那doubanspiders的star哈.
    jacob
        27
    jacob  
       2014-10-27 17:29:15 +08:00   ❤️ 1
    php新手,请问lz,如果想看懂你的代码,需要哪些知识,希望指点
    wengang285
        28
    wengang285  
    OP
       2014-10-27 18:39:08 +08:00
    @laotaitai 已点
    wengang285
        29
    wengang285  
    OP
       2014-10-27 18:39:25 +08:00
    @jacob 懂php就行
    ywencn
        30
    ywencn  
       2016-01-25 16:42:52 +08:00
    补充两个代理 IP 的网站
    http://www.ip84.com
    http://www.mimiip.com
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3226 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:00 · PVG 21:00 · LAX 05:00 · JFK 08:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.