icemanpro
V2EX  ›  问与答

每天 800 多万条环境采集记录,用什么数据库保存比较好?

  •  
  •   icemanpro · May 11, 2023 · 6220 views
    This topic created in 1117 days ago, the information mentioned may be changed or developed.
    数据要保存 1 年,哪种数据库比较好?现在只会用 mysql.
    32 replies    2024-06-13 17:51:48 +08:00
    wy315700
        1
    wy315700  
       May 11, 2023
    试试 Elastic Search
    cnoder
        2
    cnoder  
       May 11, 2023
    clickhouse
    optional
        3
    optional  
       May 11, 2023 via iPhone
    clickhouse
    Worldispow
        4
    Worldispow  
       May 11, 2023 via Android
    不考虑授权的话, 肯定是 oracle
    ThisDay
        5
    ThisDay  
       May 11, 2023   ❤️ 1
    tdengine 轻轻松松,要是不喜欢国产就用 influxdb 。
    你这个情况无脑上时序数据库
    zhuangjia
        6
    zhuangjia  
       May 11, 2023
    clickhouse
    Erskine
        7
    Erskine  
       May 11, 2023
    如果是时序数据,就用时序数据库
    haimianbihdata
        8
    haimianbihdata  
       May 11, 2023 via Android
    Doris 没人推吗
    0ice
        9
    0ice  
       May 11, 2023
    推荐 ClickHouse ,我们使用 ClickHouse 存储各种传感器数据,每天存储数据量过亿。
    Victor215
        10
    Victor215  
       May 11, 2023
    是物理设备还是云端系统?什么部署场景?有多少运维人员?运维人员水平怎么样?没有详细的背景,这玩意儿推荐了全是坑……
    litguy
        11
    litguy  
       May 11, 2023
    我曾经用 cassandra ,感觉很好用
    HunterPan
        12
    HunterPan  
       May 11, 2023
    上时序,压缩比高,查询也可以
    git00ll
        13
    git00ll  
       May 11, 2023
    doris
    arvinsilm
        14
    arvinsilm  
       May 11, 2023
    要考虑主要读写场景吧,只是单纯冷数据存储,什么数据库都行
    zhuanggu
        15
    zhuanggu  
       May 11, 2023
    用什么存关键是看你要怎么用
    jeanz
        16
    jeanz  
       May 11, 2023
    clickhouse +1 ,语法和 mysql 相似,而且查找效率还高
    xuelu520
        17
    xuelu520  
       May 11, 2023
    得看你怎么用,如果只是冷数据,随便什么都行,甚至写文件都行。
    superliy
        18
    superliy  
       May 11, 2023
    @0ice ClickHouse 多人同时查询是不是要排队的?如果前端要展示设备最近的数据,用户多了是不是就会有问题
    0ice
        19
    0ice  
       May 11, 2023
    @superliy 没问题的,clickhouse 是列数据库,查询性能非常强,我们前端展示历史趋势都是直接查询。
    sadfQED2
        20
    sadfQED2  
       May 11, 2023 via Android
    你得说说你的业务场景啊。需要怎么查呀。
    sadfQED2
        21
    sadfQED2  
       May 11, 2023 via Android   ❤️ 2
    楼上有说 ck 的,也有 doris 的,那我推荐一个 starrocks 吧。根据我们压测数据来看,性能基本上全方位领先 ck
    iwishing
        22
    iwishing  
       May 11, 2023
    TDengine
    huzhizhao
        23
    huzhizhao  
       May 12, 2023
    采集应该是什么物联网设备的吧?
    上个时序数据库吧,具体你就再问问其他人吧
    superliy
        24
    superliy  
       May 12, 2023
    @0ice 你说的是单次查询性能,我说的是 qps ,刚刚搜索了一下

    ClickHouse can handle very high query per second (QPS) rates, compared to traditional data warehouses. On a single server, it can run sustain hundreds to thousands QPS, depending on query complexity. We recommend starting at a maximum of 100 queries per second, and tuning this number as needed from there.

    大部分确实够用了
    superliy
        25
    superliy  
       May 12, 2023
    @sadfQED2 starrocks 好像挺牛的,有和时序数据库对比过吗,以后设备数据采集是不是可以直接 starrocks 了,不考虑时许数据库了?
    sadfQED2
        26
    sadfQED2  
       May 12, 2023 via Android
    @superliy 我们只和 ck 对比过,我们压测了聚合和普通查询,查询性能均领先 ck 一个数量级。

    并发性能和 ck 差不多

    我们 72 亿数据,3 台 be 两台 fe 的技术,单机 96 核 200G 的配置,qps 只能压到 20 ,单次查询 1 秒以内(聚合 sql+having 条件过滤)
    superliy
        27
    superliy  
       May 12, 2023
    @sadfQED2 qps 只能压到 20 ??
    ck 的文档写 qps 至少 100 以上啊,https://clickhouse.com/docs/en/faq/general/why-clickhouse-is-so-fast#throughput-when-processing-a-large-quantity-of-short-queries

    On a single server, it can run sustain hundreds to thousands QPS

    qps 很小的话是不是要搞个队列缓存查询的请求啊
    sadfQED2
        28
    sadfQED2  
       May 12, 2023 via Android   ❤️ 1
    @superliy 别人 ck 写的是默认配置最大 100 。实际上能达到多少 qps 得看你的查询复杂度,这类实时引擎能支持 qps 都不高,我们是在引擎前面加了 gateway ,gateway 做负载均衡,然后硬堆机器把并发堆上去
    sadfQED2
        29
    sadfQED2  
       May 12, 2023 via Android
    @superliy ck 可以改配置文件,把并发 100 的限制调高,到其实意义不大,真正数据量大了,查询复杂以后,个位数并发就把 cpu 打满了。想撑并发的唯一办法就是无脑堆机器
    zagfai
        30
    zagfai  
       May 12, 2023
    时序数据库
    codeboy18
        31
    codeboy18  
       Jun 13, 2024
    @sadfQED2 为啥我们测出来单表大查询下,ch 比 sr 快得多,而且 sr 对机器磁盘配置要求比 ch 高得多。
    codeboy18
        32
    codeboy18  
       Jun 13, 2024
    @sadfQED2 你们磁盘配置是什么样的? hdd or ssd ?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5963 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 92ms · UTC 06:11 · PVG 14:11 · LAX 23:11 · JFK 02:11
    ♥ Do have faith in what you're doing.