sohoer

爬虫在 Raspberry Pi 上跑得挺欢的 。

  •  
  •   sohoer · Mar 15, 2013 · 5615 views
    This topic created in 4822 days ago, the information mentioned may be changed or developed.
    之前用GAE 的本地环境访问Raspberry Pi 很慢很慢,以为是Raspberry Pi 的性能问题,后来发现不是。
    原来可以跑得这么欢,当然我要求不高。
    不久后我会提供外网访问的DEMO。

    WEB版的通用型采集工具 NewCrawler.COM

    上两张图,

    14 replies    1970-01-01 08:00:00 +08:00
    workaholic
        1
    workaholic  
       Mar 30, 2013
    用java写的? 基于什么库?
    ipoh
        2
    ipoh  
       Mar 30, 2013
    楼主怎么买的 我也想买一个
    sohoer
        3
    sohoer  
    OP
       Mar 31, 2013
    @workaholic 用的HttpURLConnection+正则,没有用其它第三方库,xpath,javascript支持倒是用了,不过现在把他当成插件了。



    @ipoh 淘宝买的,如果需要你留个邮箱我把交易记录发给你,我现在每天晚上都是开着的,在爬煎蛋妹子图,稳定性挺好的。
    workaholic
        4
    workaholic  
       Mar 31, 2013
    我最近也在爬图片,请教个问题:图片上水印你怎么处理的?肯定不希望自己的图片上带上别的网站的水印吧?
    chemhack
        5
    chemhack  
       Mar 31, 2013 via iPad   ❤️ 3
    @workaholic 自己的图片。。。。。 我真是吐槽无力了
    workaholic
        6
    workaholic  
       Mar 31, 2013
    @chemhack 神经病
    cooiky
        7
    cooiky  
       Mar 31, 2013
    @sohoer 求个淘宝地址 3q
    34D
        8
    34D  
       Mar 31, 2013 via Android
    自己的图片吐槽无力+1。
    workaholic
        9
    workaholic  
       Mar 31, 2013
    @34D QNMLGB
    G0dBlessMe
        10
    G0dBlessMe  
       Mar 31, 2013
    自己的图片吐槽无力+1
    ywencn
        11
    ywencn  
       Mar 31, 2013
    没懂你们在说什么自己的图片?
    chemhack
        12
    chemhack  
       Mar 31, 2013
    @ywencn 爬别人的图片,还说“不希望自己的图片上带上别的网站的水印”
    jason52
        13
    jason52  
       May 19, 2013
    -----------------

    from pyquery import PyQuery as pq
    import time


    fp=open("meizhitu.txt",'w')
    for i in range(800,813):
    url = 'http://jandan.net/ooxx/page-' + str(i)


    d1 = pq(url)

    posts = []

    for anchor in d1('#comments p>img'):
    anchor = d1(anchor)
    ans = anchor.attr('src')
    posts.append(ans)
    print >>fp,ans
    print ans
    fp.close

    ----------------------
    用pyquery写了一个简单的爬妹子图的脚本
    jason52
        14
    jason52  
       May 19, 2013
    哎呀,v2ex发代码都乱掉了。。python缩进都没了。。看来以后不能直接放代码了。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3202 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 13:04 · PVG 21:04 · LAX 06:04 · JFK 09:04
    ♥ Do have faith in what you're doing.