或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?
1
nikoo 2018-02-25 05:51:39 +08:00 11
我买楼主要看心情
|
2
lsvih 2018-02-25 08:34:37 +08:00 via iPhone
中文没分隔符,有消岐、oov 等一堆难点
当然会考虑速度 现在还没有无限接近 100% 的 |
3
liuhaotian 2018-02-25 08:45:19 +08:00 via iPhone
@nikoo 你这句话我读了三遍才读明白😂
|
5
misaka19000 2018-02-25 09:19:43 +08:00 via Android
你这句话我读了三遍也没读明白
|
6
misaka19000 2018-02-25 09:20:31 +08:00 via Android
@nikoo 你这句话我读了三遍也没读明白😂
|
7
Baymaxbowen 2018-02-25 09:37:11 +08:00 via Android 1
北京大学你是分成一个词还是两个词?
|
8
nfroot 2018-02-25 09:54:19 +08:00 via Android 1
南京市长江大桥
|
9
murmur 2018-02-25 10:00:16 +08:00 1
中文分词的最大难点还是网络用语 尤其是带反和谐部分的
|
10
BingoXuan 2018-02-25 11:36:55 +08:00 via Android
|
12
takato 2018-02-25 15:12:47 +08:00 1
为什么需要分词?
|
13
takato 2018-02-25 15:14:15 +08:00 2
从我的理解来看,如果要清晰做到理解语义。
则分词这个方法从架构上可能就是错误的。 因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。 |
16
gowl OP @Baymaxbowen 我觉得应该分一个词~
|
18
gowl OP 今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
|
19
takato 2018-02-26 09:50:22 +08:00 2
@gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。 比如: 鱼对于鱼子的意思,是有贡献的。 而鱼子对于鱼子酱的意思,也是有贡献的。 所有的字的组合构成了最完整的词的含义。 所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。 |
22
yybeta 2018-02-26 12:01:38 +08:00
自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。
|