twc731
V2EX  ›  问与答

关于爬虫建站的问题求各位大师解答下

  •  
  •   twc731 · Dec 5, 2015 · 2871 views
    This topic created in 3830 days ago, the information mentioned may be changed or developed.

    python 爬虫爬到的数据存入 mysql 或者 mongodb ,然后用网页展示出来,那日积月累数据会不会存的太多。还有如果想爬直播的类的网站,然后做个直播聚合网站,那数据该怎么存储?因为正在直播播客每小时都不一样的,如何做到实时跟新?

    5 replies    2015-12-07 16:49:54 +08:00
    LINAICAI
        1
    LINAICAI  
       Dec 5, 2015
    数据多,不是可以分页?
    数据怎么存储,要看你怎么组织网站内容。
    newghost
        2
    newghost  
       Dec 5, 2015
    股市牛博汇

    http://anynb.com/

    使用 redis 的自动聚合网站,就是要看看跑个一两年后整个网站的性能如何。
    Pepsigold
        3
    Pepsigold  
       Dec 6, 2015 via iPhone
    @newghost 不错,做研究?
    twc731
        4
    twc731  
    OP
       Dec 7, 2015
    @newghost 请问你怎么存储数据的?
    newghost
        5
    newghost  
       Dec 7, 2015
    @twc731
    @Pepsigold

    纯研究,用 redis 基本的数据结构,使用 redblade 自动创建索引

    https://github.com/newghost/redblade
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   910 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 22:36 · PVG 06:36 · LAX 15:36 · JFK 18:36
    ♥ Do have faith in what you're doing.