V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
yue5805880
V2EX  ›  问与答

如何爬去yahoo! answer的所有问答数据?

  •  
  •   yue5805880 · Aug 22, 2013 · 3570 views
    This topic created in 4638 days ago, the information mentioned may be changed or developed.
    主要做数据挖掘来用。大致的需求如下:

    1. 要抓去到所有Yahoo!answer的所有问答数据。
    2. 对于每个用户,希望能够获取到该用户在facebook上面的数据(如果该用户使用已将yanghoo mail 账号与facebook绑定,也就是说,该用户使用facebook登陆)。
    3. 可以直接爬,也可以使用api.

    求各种爬虫大神小神帮帮忙。。。。提供一下思路。。。
    2 replies    1970-01-01 08:00:00 +08:00
    devon
        1
    devon  
       Aug 22, 2013
    1,找找有没有综引页,那种按问题分类,或者按字母排序的页面。如果有,从索引页开始爬起,分析索引页中的具体answer页面,再抓具体的页。
    2,从具体的内容页分析用户名,到fb中去取数据。

    这么大的数据量,需要很大的存储空间。还需要注意:

    1,跑多线程,这么大量,需要很多线程才能加快抓的速度。
    2,不要抓太快,可能会被封,具体的速度,需要用脚本去测试一下。
    3,有可能需要很多IP地址,从不同的IP地址去爬。

    细节很多,在做的过程中去摸索。
    yue5805880
        2
    yue5805880  
    OP
       Aug 22, 2013
    @devon 谢谢你的思路。但从具体的内容页分析用户名,到fb中去取数据这一步。 这是如何做到的? 如何保证此用户和fb上的用户是一个用户呢? yahoo answer 和fb都是使用email来登陆的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   736 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 20:53 · PVG 04:53 · LAX 13:53 · JFK 16:53
    ♥ Do have faith in what you're doing.