百万级数据的模糊查询，求方案

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1624 days ago, the information mentioned may be changed or developed.

现在有一张 mysql 的 data 表有 300 个 varchar 字段：value1 到 value300 ，想要支持模糊查询，
想到的办法是建立一张索引表，

id, 
data_id, data 表的 id
number, 数据在 data 表中的位置
value, 数据的值

然后加上索引 data_id,number,value ，但是这样只能加速前缀匹配

现在有个想法，比如value 等于"abcdefghi" 就往 index 表插入以下数据，

abcdefghi,
bcdefghi,
cdefghi,
defghi,
...

这样就能支持 "%ced%"的快速查询了, 但是数据量会很大，data 表数据百万的话，可能 index 就几十亿了，这种方案可行么？

大家有没更好的方案？比如说 index 表用 elasticsearch?

15 replies • 2022-01-10 11:04:26 +08:00

damai0419

Jan 8, 2022

mysql 有个全文检索索引。你可以调研下，能不能支持百万级数据。估摸着可以用。

qaweqa

Jan 8, 2022

试试用 instr()

enjoychen0318

Jan 8, 2022

@damai0419 如果用全文索引我感觉 elasticsearch 会好很多，但是全文索引的分词会导致有些搜索不准确吧

enjoychen0318

Jan 8, 2022

@qaweqa 试了下。。百万行的数据查询好像和 like 差不多

cha0sCat

Jan 8, 2022

pg 有一个 pg-trgm 索引的原理和你说的差不多
基本是把关键词 'abcd' 拆分成 ' a' ' ab' 'abc' 'bcd' 'cd ' 这样查询

outdoorlife

Jan 8, 2022

@enjoychen0318

我同意你的用 ELK 来做

另外可以考虑直接做个只读库，只干这种非实时操作的。这是我们在没有 HADOOP 没有 ELK 的 2015 年前最常见的也是最有效的办法。

包括未来你要做数据 ETL 你也不可能主库抽，抽一次主库死了，只从从库抽。

zhoudaiyu

PRO

Jan 8, 2022 via iPhone

不知道 Loki 能不能 cover 这种场景

tinybaby365

Jan 8, 2022

优先用 elasticsearch ，想省钱就用 postgres 。

dusu

Jan 9, 2022 via iPhone

manticoresearch 中小企业全文搜索伴侣

Masonnn

Jan 9, 2022

ES ，字段用 ngram 分词器，匹配时用 match_phrase 语句。

ferstar

Jan 9, 2022 via Android

才百万，pg gin 索引了解下

4BVL25L90W260T9U

Jan 9, 2022

才百万……命令行用 fzf 都行

SmiteChow

Jan 10, 2022

瞧不起 mysql 的索引吗？如果字段没有超过 255 字符，mysql 模糊查找没有任何问题。

超过了就不合适了，看你的描述也不需要分词那就上 mongodb 。

py88pQ2hZ7PJw0v4

Jan 10, 2022

可以试一下 https://www.meilisearch.com/

MoYi123

Jan 10, 2022

你的想法叫做"后缀数组" https://oi-wiki.org/string/sa/
不过不需要把字符串真的完全切开,只需要存从 0,1,2,3... 开始的字符串的 rank 值即可, 查的时候用二分查找,
生成的时间复杂度是 O(n),查找是 O(m * log(n)), (n 是整个字符串的长度,m 是查询串的长度)
如果你很想在工作的代码里整活的话也不是不能用.

当然, 用上面说的各种方案肯定是更加靠谱的.