• 请不要在回答技术问题时复制粘贴 AI 生成的内容
a41050447
V2EX  ›  程序员

[伸手党] 有没有开源的中文分句项目, cpp or Python

  •  
  •   a41050447 · Feb 1, 2019 via iPhone · 5564 views
    This topic created in 2672 days ago, the information mentioned may be changed or developed.
    就是把篇章分成句子,可自定规则最好
    8 replies    2019-02-02 07:24:03 +08:00
    Sanko
        2
    Sanko  
       Feb 1, 2019 via Android
    jieba
    xemtof
        3
    xemtof  
       Feb 1, 2019
    @Sanko 结巴是分词的,没有分句吧。
    neptuno
        4
    neptuno  
       Feb 1, 2019
    分句?标点符号,换行符分一分?感觉这种东西自己写写比较好,重点是分词吧
    inhzus
        5
    inhzus  
       Feb 1, 2019   ❤️ 1
    正好可能以后用到, 稍微写了写

    使用的第三方库 [HanLP]( https://github.com/hankcs/HanLP)

    代码:
    https://gist.github.com/imagecser/ea03d286838fb9afe7e20fba46c4ecd2

    结果:


    如果非要用 python 的话, 参考一下 pyhanlp 就好了
    a41050447
        6
    a41050447  
    OP
       Feb 1, 2019 via iPhone
    @neptuno 主要是要考虑各种规则,括号,引号,双标点,小数点,url 这些,还可能是中英混合的文档,造轮子太废时,
    neptuno
        7
    neptuno  
       Feb 1, 2019
    @a41050447 恩,你可以试试先分词再分句试试,主要是你要自定规则,有些轮子以后坑更大
    yuikns
        8
    yuikns  
       Feb 2, 2019
    通常是做词法分析,然后得到完整的结构即可吧?

    两个推荐看看的包:

    http://thulac.thunlp.org/

    https://stanfordnlp.github.io/CoreNLP/
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5297 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 07:44 · PVG 15:44 · LAX 00:44 · JFK 03:44
    ♥ Do have faith in what you're doing.