悬赏 1000 RMB，求一个 Elasticsearch 相关的解决方案

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 732 days ago, the information mentioned may be changed or developed.

目前用 es 做了一个全文检索服务，索引 3T 大小左右。

9 点上班有个访问高峰，其他时间访问量不高，9 点的时候，Es 服务需要支撑至少 1w 人同时访问，其他时间不超过 1000 。

在这种场景下，部署一个能同时支撑 1w 人的 Es 服务开销太大。

有没有一种解决方案，动态调整 Es 资源（类似于阿里云的 Elasticsearch serverless ，按量付费），1w 个人来就给你能支撑 1w 人访问的计算资源，1000 人来就给 1000 人的资源，这样能节省很大一笔开支。

Supplement 1 · Jul 2, 2024

我没有表述清楚，假设用户量 60w ，这 60w 个人在一分钟内发请求过来，平均每秒 1w 个请求，并发至少 1w 是这么来的。

用户搜索词有 90% 的可能不一样，缓存可能有点用，但是光靠缓存不太行。

有信心的可直接加 V: d3VrYWlnZWUK

能帮忙部署一个 demo 更好，钱好说（反正不是我出），只要能解决这个场景。

Elasticsearch

动态调整

资源

36 replies • 2024-07-03 14:25:04 +08:00

Aliencn

Jul 2, 2024

那就直接用阿里云 ES 的弹性伸缩不就行了嘛。
自己实现的话也是够买弹性服务器加入集群。

wukaige

Jul 2, 2024

@Aliencn

阿里云 ES 的弹性伸缩，并发量上不了 1w

bronyakaka

Jul 2, 2024

简单说就是资源可以减少，但是要上缓存，缓存层支撑高并发

N6R91zIxLm37099s

Jul 2, 2024

搜索应该也讲二八原则，那给 80%的套上缓存可能行

oudemen

Jul 2, 2024

es 部署到 k8s 中，定时弹性扩缩容？

my3157

Jul 2, 2024

就用 ES 原生的 ILM 最方便, 部署用 k8s, 配置好 k8s 的 nodegroup, 每天九点之前, 扩容一批 es hot/warm 节点, 并且将 index 从 cold 节点提升上来, 完事了再降回 cold 节点, 缩掉扩容的 k8s 节点, 实现起来也不复杂

justest123

Jul 2, 2024

感觉像是个 AB 问题。。

先确认下，这 1W 人是真的都需要访问到 ES 吗，用缓存转移走部分重复请求或者没必要的请求吧

sdoq19

Jul 2, 2024

阿里云 elasticsearch serverless

fengjianche

Jul 2, 2024

这种分布式存储问题都一个样，先上多级缓存，再扛不住就加机器。1w 人同时访问，也不是很多啊。

JunMemon

Jul 2, 2024

ES 拆分节点类型，可以横向扩展非 data 节点，data 节点采用冷热数据部署

bootvue

Jul 2, 2024

k8s hpa

hallDrawnel

Jul 2, 2024

感觉像是个 XY 问题，你最终要做的可能不是扩容你的 ES 。试着从搜索分布分析一下？

zhenjiachen

Jul 2, 2024

k8s hpa 或者 node hpa 应该不行把。以为他们只扩充节点，但是数据不会同步到新节点并且节点关闭了数据也丢了

Xu3Xan89YsA7oP64

Jul 2, 2024

有悬赏平台吗，没有的话谁去开发一个，我要抢单

winglight2016

Jul 2, 2024

ES 的缓存就是靠内存，你要是裸机安装就内存弹性增加，如果是 k8s 安装，那就用 HPA 弹性加内存

ss098

Jul 2, 2024

部署 ElasticSearch Helm 到 Kubernetes ，声明 ElasticSearch 不同 node role 的 resources 以及 autoscaling 的配置。

https://github.com/bitnami/charts/tree/main/bitnami/elasticsearch

ChoateYao

Jul 2, 2024

阿里云有这种业务啊，包括 RDS 之类的数据库都有动态扩容方案

https://help.aliyun.com/zh/es/user-guide/perform-auto-scaling-for-a-cluster?spm=a2c4g.11186623.0.0.6f397de1Etkjdj

wukaige

Jul 2, 2024

@justest123

真的要访问，1w 可能还不保险。

freemoon

Jul 2, 2024

你需要一个 es 专家

mightybruce

Jul 2, 2024

"假设用户量 60w ，这 60w 个人在一分钟内发请求过来，平均每秒 1w 个请求，并发至少 1w 是这么来的。"

首先这个公式就是有问题，怎么可能 60w 人都是活跃用户，并且用户量根本不能直接这样换算，你这什么应用

就是一个 XY 问题。

Jinnrry

Jul 2, 2024 via Android

不改业务代码，纯改 es 架构不太现实，你有没有想过 3T 数据扩容的时候主节点复制到从节点要多久？如果高峰瞬间过来，这时你又加节点，从节点复制数据把主节点机器大部分 io 都占了，服务瞬间 GG ，还不如不扩容

除非你能分钟级准确预估峰值时间，否则怎么定扩容策略

另外，1 万人同时访问，这也不多啊，就算缩容，每个月省几千块钱？

brom111

Jul 2, 2024

说起来既然都用阿里云了有没有考虑过 Lindorm 这套东西

Coolwinds

Jul 2, 2024

从 IT 的角度上来说，你假如自己做伸缩，你多出来的计算资源譬如服务器在闲时怎么办，企业一般不会允许你在一台机器上部署多个服务，除非只是测试环境节省资源

skymei

Jul 2, 2024

感觉业务描述不够清晰，数据是否有冷热区分，是只有基本的全文检索服务，还是会有 agg 聚合统计，数据有没有业务状态，目前分片和副本怎么配置的，分词粒度咋样，这些都可能影响性能。

keakon

Jul 2, 2024

计算挺奇怪的，60 万用户全在一分钟内访问，这是主动发起的，还是定时任务啊？

平时还能有 1000 qps ，他们是有多闲，每 10 分钟都会查询一次…

说实话你这问题靠扩容没法解决，比如 8:59 时还是 1000 qps ，假设 1 台机器刚好。9:00 突然到 1 万 qps ，立刻再起 9 台机器，启动要半分钟，同步数据几分钟，然后发现 qps 回到 1000 了，它们又可以下线了。