有没有现成的拼音分词工具？

我还以为是中文分词呢，刚想推荐一下 IKAnalyzer... 这个枚举不是超简单么？

我过了一遍所有 utf-8 中文字符然后用 pinyin4j 帮你枚举了一下 XD

https://gist.github.com/yuikns/387be5e9cf450ae3589fa7037c94453e#file-pinyin_tokenlizer-py

yuikns

Jul 3, 2019

输入是 jintianxtianqibucuo 其中 tian[x]tian 有问题，所以输出 ['jin', 'tian', 'invalid:x', 'tian', 'qi', 'bu', 'cuo']。
不玩啦

czhfrank

Jul 3, 2019 via iPhone

@yuikns 谢谢老哥，我回去看下。主要就是怕自己拼音规则写的不完整

gladuo

Jul 3, 2019

@yuikns 不过还有一些 badcase 还是蛮难的其实，比如 xianshi （西安市）是 xi'an'shi 还是 xian'shi ；或者 xuanzhuan （旋转）是 xuan'zhuan 还是 xu'an'zhuan ；以声母分隔，是硬边界，但是还有一些软边界是韵母分隔，简化的话。。。就是列个高频词表匹配一下，通用的话是不是还得整个 language model 什么的，没再仔细想了

yuikns

Jul 3, 2019 via iPad

@gladuo 对。常见问题是 xian 到底是西安还是鲜凭借没有分割的拼音乱猜也没用。

要死只是算个人 possibility 那简单，手头有几个 g 微博语料做个 ngram 很容易，不过确定性就不可知了

yuikns

Jul 3, 2019 via iPad

@gladuo 倒是陕西的拼音 Shaanxi，这种需要额外 knowledge 的比较烦不能一步搞定

czhfrank

Jul 3, 2019 via iPhone

@yuikns 已经很好了，shaanxi 严格来说确实不是拼音，是英文名了