英文的分词也不只是用空格分开那么简单,比如: The golden gate bridge is located in San Francisco ,这句话如果简单的用空格 explode 的话,最终会将“ golden gate bridge ”以及“ San Francisco ”给分拆开来而失去原有的意义,有没有这方面英文词组相关的分词 api 或者开源程序?
1
knightdf 2017-02-15 22:16:14 +08:00
你想多了,这已经不是简单的分词了,是 entity extraction 了
|
2
ligyxy 2017-02-15 22:24:35 +08:00 via Android
second order phrase model
|
3
yangyaofei 2017-02-15 22:27:23 +08:00 via Android
@knightdf 这不是 n-gram 么……
|
4
neurocomputing 2017-02-15 22:28:28 +08:00
stanford 有开源的 NLP 包
|
5
slixurd 2017-02-15 22:30:58 +08:00
所以一般英文处理的时候会保留位置信息...
|
6
knightdf 2017-02-15 22:32:16 +08:00
@yangyaofei n-gram 只是方法
|
8
cszeus 2017-02-16 03:15:04 +08:00
是想做 named entity recognition 还是 tokenization?
|
9
cszeus 2017-02-16 03:16:14 +08:00
反正可以看看 standford 的 http://nlp.stanford.edu/software/CRF-NER.shtml#Starting 或者 NLTK
|
10
freeman 2017-02-16 09:02:45 +08:00
还有那种没有空格的,比如: goldnecklace(gold necklace)
|
11
holajamc 2017-02-16 14:54:39 +08:00
斯坦福的 CoreNLP ,如果是 Java 程序员的话可以直接用,也可以配合 Python NLTK ,另外连续相同的单词首字母大写可以划分为一个词咩(逃
|
12
liyu4 2017-02-16 17:20:19 +08:00
wocao ,英文分词你还要怎么样!
|
13
BarryLu 2020-11-16 19:33:24 +08:00
您好!请问一下,这个分词需求您后来用什么解决了?
|