如题,不知道论坛大神有没有好的方法,语言不限。思路也行,我想了一晚上,也想不到什么好的方法,纠结中。
1
noNOno 2018-04-14 10:17:25 +08:00 1
集群用 spark 跑 w2v 找相似度?
|
2
stevenbipt 2018-04-14 10:19:25 +08:00 via Android
用统计的方法?
|
3
ke1e 2018-04-14 10:20:10 +08:00 via Android
这不就是推荐系统么
|
4
intheplants 2018-04-14 10:29:45 +08:00 via iPhone 2
simhash
|
6
neosfung 2018-04-14 10:42:28 +08:00
simhash 是搜索引擎常用的
|
7
Yourshell 2018-04-14 11:04:00 +08:00 via iPhone
count word
|
8
amoia50 2018-04-14 11:24:47 +08:00
了解一下搜索相关的,@intintheplants 也是一种方法,实际使用基于 solr 和 elastic 构建搜索引擎,先索引数据,再查询
|
9
stabc 2018-04-14 11:43:28 +08:00 via Android
你今天面试,被问这个问题,然后想了一个晚上,今天发帖?
|
10
takato 2018-04-14 11:51:30 +08:00
自变分编码器 + Embedding 搞定
|
12
zix 2018-04-14 12:56:05 +08:00 1
给定一条数据,先用倒排索引用来找候选集,然后用文本相似方法计算相似得到 topn 的结果或者相似超过阈值的结果。
考察效率的话,重点讲倒排索引吧,两两对比怕会被喷死,毕竟有些数据相互之间相似度极低没有去计算的必要能先排除掉就排除掉。考察文本相似的话,可以从余弦相似开始,进一步可能要考虑语义相似,那就上 word2vec 或者深度学习匹配模型。 方法多得很,大框架是这样。 |
15
prolic 2018-04-14 13:49:40 +08:00 via Android
分解一下,如何识别相似的内容?根据要求,从编辑距离,tfidf,w2v+rnn
应对海量数据?先了解下需求是离线还是流式,离线的话用 MapReduce,spark 等技术,流式的用 kafka,抽取特征,建个特征库,新来的去比较 |