先上地址
https://github.com/Moonshile/ChineseWordSegmentation
原理参考的是这篇神文,通俗易懂,作者不愧是中文系出身的!
好吧,我承认是想顺便求几个Star,真是还干净着呢。。
觉得有必要贴一下使用方法,非常简单~
from wordseg import WordSegment
doc = u'十四是十四四十是四十,十四不是四十,四十不是十四'
ws = WordSegment(doc, max_word_len=2, min_aggregation=1, min_entropy=0.5)
ws.segSentence(doc)
分词结果为
十四 是 十四 四十 是 四十 , 十四 不是 四十 , 四十 不是 十四