dzdh

有没有什么正在更新的词库可以给 jieba 或 zhparser 用的

  •  
  •   dzdh · Jun 28, 2021 · 2332 views
    This topic created in 1778 days ago, the information mentioned may be changed or developed.

    ps : 这俩还在更新吗..

    pg 的中文分词需求感觉蛮大的啊。哪里有好的社区可以求指导咩

    5 replies    2021-06-29 15:14:24 +08:00
    ptsa
        1
    ptsa  
       Jun 28, 2021
    更新不频繁。 应该都能用
    dzdh
        2
    dzdh  
    OP
       Jun 29, 2021
    @ptsa 有没有啥好的分词词库啊。

    搜狗细胞词库转 txt ?
    MinQ
        3
    MinQ  
       Jun 29, 2021
    https://ai.tencent.com/ailab/nlp/en/embedding.html
    可以把这里面的词抽出来作为词典,质量还是很高的
    dzdh
        4
    dzdh  
    OP
       Jun 29, 2021
    @MinQ
    木有找到现成的库 需要自己 clone 源码自己训练么
    MinQ
        5
    MinQ  
       Jun 29, 2021
    @dzdh 不需要,下载下来是一个训练好的文件,里面是词+对应的词向量的形式
    读到内存里(可能需要至少 16G 以上的内存),然后把词库提取出来给 jieba 用
    https://www.biaodianfu.com/tencent-word-embedding.html
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3366 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 13:45 · PVG 21:45 · LAX 06:45 · JFK 09:45
    ♥ Do have faith in what you're doing.