V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wangxiaoer
V2EX  ›  程序员

向量数据库对中文模糊检索的支持如何

  •  
  •   wangxiaoer · 38 天前 via iPhone · 777 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试过国内的一些大模型产品,文心、通义等,对原理不熟悉,按照我粗浅的理解,这些 AGI 的输出就是根据之前的输出 token 预测下一个输出 token ,最终形成完整的输出。

    另外,也看到一些文章( https://zhuanlan.zhihu.com/p/633671394 ),基于大模型+专业知识库构建简单的专业模型,一般做法是把专业知识库转成向量,扔到向量数据库。用户使用的时候,先把用户输入转成向量,并在知识库向量种搜索相似向量,再把用户原始输入和匹配的知识库扔给大模型,使得输出的内容和知识库紧密相关。

    这里的核心是在向量数据库里面搜索和输入相近的知识库,按照传统做法,如果想做全文检索,常规方式是 lucene ES 等方式,在我搜到的向量检索方面,很少再提到中文分词了。

    这是啥情况?向量数据库支持中文模糊检索吗?

    3 条回复
    Kite6
        1
    Kite6  
       38 天前 via Android
    向量检索不需要分词,本身就是语义匹配
    TimePPT
        2
    TimePPT  
       38 天前
    因为 ES 检索是文本检索,所以需要考虑字/词/词组的权重,比如经典的 TF-IDF/BM25
    语义向量检索其实是通过 Embedding 做了语义嵌入,context 的互信息形成一个多维向量值。再比较目标间的向量相似度。其实这个也需要分词,但分词阶段是放在了 Embedding 模型训练时候去做词表。
    wangxiaoer
        3
    wangxiaoer  
    OP
       38 天前 via iPhone
    @TimePPT

    1 Embedding 阶段的分词需要传统不同语言的词库做支撑吗?
    2 不考虑大模型,普通的向量数据库如 pg 的 pgvector 插件支持中文 embdding 吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   974 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 22:04 · PVG 06:04 · LAX 14:04 · JFK 17:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.