如题,有点好奇,在第一条评论上方会有几个词语,是文章内容里的,怎么获取的,为什么是这几个?是 lucence 或者 ES 的分词?怎么提取的呢?
点击还能根据分词的类别进入对应列表,感觉很方便,想了解下,只是思路也行?
感谢各位 geek
1
gaocc OP 比如这次就是分词,评论,V2EX,lucence 这几个关键字
|
2
lllllllllllllll 2018-03-27 13:46:38 +08:00
应该是从你的问题描述和标题里面 抽出来的关键字。。具体有没有用机器学习算法不清楚。
|
3
gaocc OP @lllllllllllllll ……想了解是怎么抽取和分离的,思路也行
|
4
lllllllllllllll 2018-03-27 13:51:52 +08:00
@gaocc 语义识别算法吧,很久之前就见过类似的算法。
|
5
SourceMan 2018-03-27 13:53:22 +08:00
|
6
crab 2018-03-27 13:53:50 +08:00
之前看站长说过用的 jieba
|
7
zakokun 2018-03-27 13:54:30 +08:00
应该就是简单的分词而已,别想太多。
|
9
gaocc OP @SourceMan 你发的这个,我测试了下有毒啊。标题用默认的苹果新闻,内容全删了,然后在 v2 里找一篇文章复制上去,没一个关键字和文章内容有关,全是苹果啥啥的
|
11
Tink 2018-03-27 14:11:40 +08:00 via iPhone
jieba
|
12
gaocc OP 求问,jieba 只能用 python 来写吗? java 可以吗?
如果不行,java 用什么可以代替 jieba |