V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
gotounix

写了个糗事百科的爬虫,数据图片都爬下来,第一次写爬东西的玩意,轻喷啊!

  •  
  •   gotounix · Sep 4, 2014 · 5399 views
    This topic created in 4261 days ago, the information mentioned may be changed or developed.
    Supplement 1  ·  Sep 4, 2014
    可以把文字内容,图片链接写到数据库;
    可以把图片下载至本地,并把本地的相对链接也写到数据库。

    只要安装了mysql,把上面的几个配置换成自己的就OK了。
    可以建一个定时任务,基本上所有内容都能爬下来(不包含评论和用户信息)。
    10 replies    2014-09-17 18:04:56 +08:00
    zinev
        1
    zinev  
       Sep 4, 2014
    试了下,下载的图片没点意思,不如换一个,下载壁纸也好啊
    gotounix
        2
    gotounix  
    OP
       Sep 4, 2014
    @zinev 有道理,这就去写。
    withrock
        3
    withrock  
       Sep 5, 2014
    我也写了个多进程爬豆瓣的脚本。

    http://git.oschina.net/mktime/python-learn/blob/master/qiubai.py

    不过好久没更新了,不知道糗百有木有更新html结构。

    如果更新的话,需要改正则表达式。

    我用的sqlite3。
    sunny1992
        4
    sunny1992  
       Sep 5, 2014
    观摩
    displayabc
        5
    displayabc  
       Sep 5, 2014
    @withrock 我感觉自己写正则的,都不是好爬虫
    mkeith
        6
    mkeith  
       Sep 5, 2014
    草榴的
    linKnowEasy
        7
    linKnowEasy  
       Sep 5, 2014
    不是有官方api么。
    myAngel
        8
    myAngel  
       Sep 16, 2014
    怎么运行。。。。。
    gotounix
        9
    gotounix  
    OP
       Sep 17, 2014
    myAngel
        10
    myAngel  
       Sep 17, 2014
    兄弟,我想爬一个网站的内容,能做吗?
    能做的话,QQ聊聊
    马化腾:156224301
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6013 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 03:35 · PVG 11:35 · LAX 20:35 · JFK 23:35
    ♥ Do have faith in what you're doing.