大数据量下基于 ES 的统计分析怎么做？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3557 天前的主题，其中的信息可能已经有所发展或是发生改变。

有下面的一个需求，请问一下大家有什么好的方案？现在有亿级别的新闻文本数据，每条文本有超过二十个的属性（比如新闻正文、译文、时间、国家、地点等），已经使用 es 对这些数据建了索引。

现在要根据提供的关键词进行检索，对检索到的前 N 条（ N 可能为 2000 、 5000 、 10000 、 100000 等）数据进行分析，主要是针对各个属性进行统计，比如统计各个国家的新闻数量。

目前是直接通过 es 拿到结果做统计，但是非常慢，有什么好的方案吗？

7 条回复 • 2016-06-03 20:17:56 +08:00

ligyxy

2016 年 6 月 2 日 via Android

Spark cluster

Numbcoder

2016 年 6 月 2 日

试试这个 druid.io

fcicq

2016 年 6 月 2 日

带宽和 IOPS 就是单机水平那就不可能指望有突破啊.

shoumu

2016 年 6 月 3 日

@fcicq
带宽和 IOPS 都好说，这里想先看看有啥好的方案

shoumu

2016 年 6 月 3 日

@ligyxy
@Numbcoder
谢谢两位，我先去看看

SmiteChow

2016 年 6 月 3 日

我觉得你的 ES 部署方式有问题，是分布式的么？

shoumu

2016 年 6 月 3 日

@SmiteChow
是分布式的