比如一段英文字符 jintiantianqibucuo 可以拆分为 jin tian tian qi bu cuo。如果不符合拼音规则则返回输入非拼音的提示
如果有现成的就最好了,省的重写一个
如果有现成的就最好了,省的重写一个
1
yuikns Jul 3, 2019
我还以为是中文分词呢,刚想推荐一下 IKAnalyzer... 这个枚举不是超简单么?
我过了一遍所有 utf-8 中文字符然后用 pinyin4j 帮你枚举了一下 XD https://gist.github.com/yuikns/387be5e9cf450ae3589fa7037c94453e#file-pinyin_tokenlizer-py |
2
yuikns Jul 3, 2019
输入是 jintianxtianqibucuo 其中 tian[x]tian 有问题,所以输出 ['jin', 'tian', 'invalid:x', 'tian', 'qi', 'bu', 'cuo']。
不玩啦 |
4
gladuo Jul 3, 2019
@yuikns 不过还有一些 badcase 还是蛮难的其实,比如 xianshi (西安市)是 xi'an'shi 还是 xian'shi ;或者 xuanzhuan (旋转)是 xuan'zhuan 还是 xu'an'zhuan ;以 声母 分隔,是硬边界,但是还有一些软边界是 韵母 分隔,简化的话。。。就是列个高频词表匹配一下,通用的话是不是还得整个 language model 什么的,没再仔细想了
|