打了一大段话,各种符号任意使用,换行不换行随意。如何把这一段话断句? (多分享点 java 的最好~
1
Mac 2019-03-05 23:22:48 +08:00 via Android
去看看锤子大爆炸,好像提过用的谁家的 API
|
2
youngxhui 2019-03-05 23:28:58 +08:00 via Android
你是说分词吗? hanlp 这个库不错 JAVA 的
|
3
c4f36e5766583218 OP |
4
c4f36e5766583218 OP 第 1 条附言打错了,是“就是把一大段话分成若干个句子”
|
5
Maboroshii 2019-03-06 00:28:06 +08:00 via iPad
枚举所有的标点符号自己写一个不就是了。。
|
6
c4f36e5766583218 OP @Maboroshii 这很弱吧,(至少得带点语义分析吧。都 9102 年了
|
7
c4f36e5766583218 OP NLPchina/nlp-lang,就是通过标点符号分句的。剔除!!!
|
8
c4f36e5766583218 OP |
9
xuanwu 2019-03-06 02:08:26 +08:00
如#5 所言. 先举些不能通过标点分句的例子吧, 否则很难理解你的需求.
如果有实用目的, 欢迎在这里开 issue: https://github.com/program-in-chinese/house_of_10000_business |
10
Iamnotfish 2019-03-06 02:32:49 +08:00 via iPhone
结巴断句?
|
11
theks 2019-03-06 02:38:20 +08:00 via iPhone
只考虑开源的吗?商用的也可以看看。我用过百度的 nlp 处理语义分析,关键词提取之类的,如果需求不复杂是可以用的。
|
12
c4f36e5766583218 OP @theks 那个好像是提取摘要
@Iamnotfish 结巴能断句 @xuanwu 比如发了条微博,一大段话只使用了逗号,需要把它拆分成几个句子(split,至于哪个逗号 split 哪个逗号不 split 由程序处理了)。 |
13
xuanwu 2019-03-06 11:13:16 +08:00
@c4f36e5766583218 哦, 听起来是要判断哪几段短句是构成一个完整句子, 比如说, 我这句话, 就只有两句?
1. 哦, 听起来是要判断哪几段短句是构成一个完整句子. 2. 比如说, 我这句话, 就只有两句? 感觉比分词来的更主观, 难度估计更大吧. |
14
c4f36e5766583218 OP @xuanwu 感觉是,我后来往深了想了想,一段话有上下文联系的,要有语义分析的断句还真蛮复杂的
|
15
c4f36e5766583218 OP 好吧,貌似我搜到的 3 个 github 项目都是通过标点符号断句的~~~~。(散了散了
|