V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Qiangyuan
V2EX  ›  问与答

如何爬取一个人所有的微博?

  •  1
     
  •   Qiangyuan · Sep 5, 2016 · 10780 views
    This topic created in 3529 days ago, the information mentioned may be changed or developed.

    在只知道用户名的情况下,抓取这个用户名下的所有的微博

    14 replies    2016-09-13 21:53:18 +08:00
    Hello1995
        1
    Hello1995  
       Sep 5, 2016 via iPhone
    可以换个思路,去爬微博档案, 233
    herozzm
        2
    herozzm  
       Sep 5, 2016 via Android
    注册用户关注他,让爬虫模拟登录后爬起来
    UnisandK
        3
    UnisandK  
       Sep 5, 2016
    记得是不是翻不到那么后面,接口也有限制
    ooh
        4
    ooh  
       Sep 5, 2016
    如果只是一个人的话 lz 可以看看我以前的笔记 [点我]( http://blog.jjyy.me/2015/10/11/weibo-text-analysis/),自己改一下应该很快

    登陆已经坏了,现在都带验证码了, cookiejar 你得先在浏览器里面登陆获取到 weibo.cn 域下面的 cookie ,只需要 SCF SUB 这俩个就可以了

    ![]( )

    我自己跑了一下,目前几百页还没触发限制条件

    ![]( )
    slysly759
        5
    slysly759  
       Sep 6, 2016 via Android
    我原来写过,只需呀 UID 就行了,然后可以爬取全部微博, text 和图片是分开放的
    toomwan
        6
    toomwan  
       Sep 6, 2016
    很简单。
    Qiangyuan
        7
    Qiangyuan  
    OP
       Sep 7, 2016
    @ooh 看不懂,验证码怎么弄?
    Qiangyuan
        8
    Qiangyuan  
    OP
       Sep 7, 2016
    @slysly759 可以分享出来吗?
    Qiangyuan
        9
    Qiangyuan  
    OP
       Sep 7, 2016
    @macwhirr 请教如何做?表示不懂
    Qiangyuan
        10
    Qiangyuan  
    OP
       Sep 7, 2016
    @ooh
    root@johnnyding-Inspiron-3437:/home/johnnyding/文档 /2017-interview/test# python test.py
    Traceback (most recent call last):
    File "test.py", line 19, in <module>
    main()
    File "test.py", line 13, in main
    data = w.get_info(url)
    File "/home/johnnyding/文档 /2017-interview/test/weibo.py", line 102, in get_info
    data['page'] = int(soup.find('input', {'name': 'mp'}).get('value'))
    AttributeError: 'NoneType' object has no attribute 'get'
    这个错是什么?
    ooh
        11
    ooh  
       Sep 7, 2016
    @Qiangyuan 这个错就是因为没登陆成功,你是在没登陆情况访问的那个页面,快速解决方法我上面已经给出了,你先在浏览器里面登陆,拿到 weibo.cn 域下面的 cookie ,然后手动写入到 cookiejar 文件里面,只要 SCF SUB 这两个就可以
    toomwan
        12
    toomwan  
       Sep 8, 2016
    @Qiangyuan 接口
    slysly759
        13
    slysly759  
       Sep 13, 2016
    @Qiangyuan 哈哈 可以啊~
    https://github.com/songluyi/slylearnpython
    在里面有,记得把 cookie 换掉 一个 cookie 一般持续 20 分钟的样子 你用 weibo.cn 的获取登陆页 cookie 就行,如果好用麻烦点个赞蛤~写的通俗易懂
    Qiangyuan
        14
    Qiangyuan  
    OP
       Sep 13, 2016
    @slysly759 谢谢!
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5432 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 05:50 · PVG 13:50 · LAX 22:50 · JFK 01:50
    ♥ Do have faith in what you're doing.