ke1vin
V2EX  ›  问与答

想利用爬虫做一个豆瓣小组发帖搜索引擎,讨论下可行性

  •  
  •   ke1vin · Mar 14, 2018 · 4404 views
    This topic created in 3004 days ago, the information mentioned may be changed or developed.

    打算做一个针对豆瓣小组发帖内容的搜索引擎:定向一些热门活跃小组(八卦组,逼组还有你懂的),根据用户名称,标题 /内容和话题回复进行搜索,搜索结果的每一项需要包含:标题,内容概要以及话题的前几张图片(如果带有图片的话)。

    初步设想是用 nodejs (或者 python )去定时爬数据,爬虫程序挂在云上,爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的(详见 https://www.douban.com/group/topic/33507002/ )。

    针对某个小组的话题列表,话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。

    那么问题来了,跑这样一个程序需要多大内存以及硬盘空间?以上方案是否合理?第一次做爬虫程序,请指教。

    6 replies    2018-08-19 21:37:11 +08:00
    ke1vin
        1
    ke1vin  
    OP
       Mar 14, 2018
    come on
    golmic
        2
    golmic  
       Mar 14, 2018 via Android
    需要做的话我可以提供技术支持。我的联系方式公众号 pydatame 有
    ke1vin
        3
    ke1vin  
    OP
       Mar 15, 2018
    我在想如果一直跑爬虫的话总有一天硬盘会满
    ke1vin
        4
    ke1vin  
    OP
       Mar 15, 2018
    要怎么做
    isolove
        5
    isolove  
       Mar 16, 2018
    有这样的搜索引擎就好了,继续此物搜索发帖回帖记录
    an93
        6
    an93  
       Aug 19, 2018
    楼主 这个搜索引擎你搞出来了吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4917 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 09:42 · PVG 17:42 · LAX 02:42 · JFK 05:42
    ♥ Do have faith in what you're doing.