V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
snail00
V2EX  ›  程序员

每天 60w 日活的 app 后台数据分析怎么做合适.

  •  
  •   snail00 · 2017-05-25 17:05:18 +08:00 · 6653 次点击
    这是一个创建于 2739 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司之前没有后台, 后台从 0 开始, 就我一个人.

    目前服务器资源:

    凌动双核 cpu 1.8g 主频,4g ddr3 800 内存, 500g 机械硬盘

    亚马逊免费 rds 一台, 1c 1g 20g 空间

    后台写了报文收集和简单的入库查询.

    现在用户慢慢更新了应用.

    每天报文量 18w+, 占用硬盘空间 20M 左右, 数据入库 60w+条, 统计的日活只有 4w 用户, 还在一直增加.

    今天算了下, 按三分之一用户会更新新版来算, 这么搞很快就死了.

    现在的思路是:

    1. 压缩单用户的数据
    2. 按月分表, 这也是单表千万数量级
    3. nosql 或索引
    4. 冷热数据分离, 单独搞个结果表.

    现在问题来了, 有没有更好的办法, 资源比较有限 或者说做 100w 日活的后台统计, 大概需要什么什么规模的计算资源, 就亚马逊的产品来说.

    32 条回复    2017-06-21 10:22:58 +08:00
    liprais
        1
    liprais  
       2017-05-25 17:48:08 +08:00
    你想要分析啥
    vus520
        2
    vus520  
       2017-05-25 17:53:56 +08:00
    60W 日活已经是不错的量级了。

    楼主,我们有类似的业务,日活几百万。产品做了两年多,基本上实现了一个友盟的常见功能。我个人准备找机会商业化,做开源的友盟也好,企业服务也好。如果楼主有兴趣,我们可以详细聊聊。
    mengzhuo
        3
    mengzhuo  
       2017-05-25 17:56:24 +08:00
    可以统统塞到 ES 里面,以后慢慢分析
    snail00
        4
    snail00  
    OP
       2017-05-25 17:59:37 +08:00
    @liprais #1 日活, 启动, 打开, 点击 等指标
    snail00
        5
    snail00  
    OP
       2017-05-25 18:00:32 +08:00
    @vus520 #2 这个之前就是用的三方的, 现在想自己做, 所以招了我
    snail00
        6
    snail00  
    OP
       2017-05-25 18:01:30 +08:00
    @mengzhuo #3 我在上家公司用的 es, 这家公司服务器资源少, 不好上.
    vus520
        7
    vus520  
       2017-05-25 18:35:24 +08:00
    @snail00 懂了,Redis、ES、时序类数据库都可以,纯 Mysql 估计会有一些压力
    sampeng
        8
    sampeng  
       2017-05-25 18:49:56 +08:00
    没有服务器资源,一切都是聊闲天。。。。
    友盟就够用了。。为何还要自己做呢。。。
    liprais
        9
    liprais  
       2017-05-25 18:57:06 +08:00
    果断申请预算上 hadoop ,以后需求会越来越复杂,现在的资源是支撑不了的
    lavande
        10
    lavande  
       2017-05-25 22:31:23 +08:00
    不太懂技术……不过直接用 google analytics 不行吗?
    snail00
        11
    snail00  
    OP
       2017-05-25 22:40:21 +08:00
    @sampeng #8 自己玩用户画像, 更细的数据分析.
    snail00
        12
    snail00  
    OP
       2017-05-25 22:41:17 +08:00
    @liprais #9 从 0 开始一个坑一个坑踩吧, 先把现在的需求实现了才能说以后
    snail00
        13
    snail00  
    OP
       2017-05-25 22:42:10 +08:00
    @lavande #10 有数据了自己玩的花样就多了, 数据放别人手上, 有个政策变动还是挺被动的.
    SlipStupig
        14
    SlipStupig  
       2017-05-25 23:04:54 +08:00
    分析日志 ELK,做数据聚合 spark....
    echotpq
        15
    echotpq  
       2017-05-25 23:28:56 +08:00
    数据库和 web 等分离,优化表结构,mysql 和 redis 结合
    snail00
        16
    snail00  
    OP
       2017-05-25 23:29:56 +08:00
    @SlipStupig #14 这个需要服务器资源, 现在只能收集日志先存着, 以后洗数据.
    snail00
        17
    snail00  
    OP
       2017-05-25 23:31:20 +08:00
    @echotpq #15 明天尝试, 对查询数据静态化处理, 冷热数据分离. 查询的表和报文存的表分开.
    ericls
        18
    ericls  
       2017-05-25 23:49:24 +08:00 via iPhone
    扔进 elk 再说
    fatpa
        19
    fatpa  
       2017-05-26 02:02:46 +08:00
    讲道理,这个数据量如果不做用户画像之类的事情,只是普通的日常用户行为统计,rsync 和 awk 基本就解决了。

    痛点应该想想百万级别日活的服务器资源怎么解决吧
    dangyuluo
        20
    dangyuluo  
       2017-05-26 02:58:30 +08:00
    Kibana,数据可视化不错。
    dangyuluo
        21
    dangyuluo  
       2017-05-26 03:02:12 +08:00
    发现 ELK 系列真是神器啊,只要记录下来了,想做什么分析都可以。
    snail00
        22
    snail00  
    OP
       2017-05-26 09:08:58 +08:00
    @dangyuluo #21 等手头这么处理差不多了, 搭套 elk 试试.
    Hozzz
        23
    Hozzz  
       2017-05-26 09:43:00 +08:00
    以楼主的数据量,I/O 肯定是个瓶颈(无论如何优化)。
    gamecreating
        24
    gamecreating  
       2017-05-26 09:59:05 +08:00
    啥 APP...发来帮你研究下
    yanzixuan
        25
    yanzixuan  
       2017-05-26 11:10:30 +08:00
    @snail00 es 是个好东西,但是吃内存。。少于 1 一个 g 的内存玩不动。。。我在 vps 上试了一下极限情况。1g 内存,设置 jvm 吃 500m 内存。勉强能用。再跑点别的就不行了。
    jswh
        26
    jswh  
       2017-05-26 12:11:52 +08:00
    我最后选了 Cassandra
    mingyun
        27
    mingyun  
       2017-05-28 08:39:29 +08:00
    这么多人推荐 elk
    firefox12
        28
    firefox12  
       2017-05-29 08:55:25 +08:00 via iPhone
    啥 app 日活 60 万?够一个人生活了吗?求 app 名字
    mineqiqi
        29
    mineqiqi  
       2017-06-20 17:27:28 +08:00
    @firefox12 日活 60w 还不够一个人生活?
    snail00
        30
    snail00  
    OP
       2017-06-20 17:41:43 +08:00
    @mineqiqi #29 额, 不是一个人, 是一个公司其中的一个 app 做后台目前就我一人.
    mineqiqi
        31
    mineqiqi  
       2017-06-20 17:48:33 +08:00
    @snail00 嗯哪,我知道不是你一个人,我回答的是 28 楼,你是不是看错头像了
    firefox12
        32
    firefox12  
       2017-06-21 10:22:57 +08:00
    @mineqiqi 所以想知道什么 app
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2866 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 14:18 · PVG 22:18 · LAX 06:18 · JFK 09:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.