今日面试，被问了一个问题，如何查找出相似内容的数据。数据形式比较大，类似与新闻详情。数据量上千万

This topic created in 3023 days ago, the information mentioned may be changed or developed.

如题，不知道论坛大神有没有好的方法，语言不限。思路也行，我想了一晚上，也想不到什么好的方法，纠结中。

数据量

大神

方法

想不到

16 replies • 2018-04-14 16:30:41 +08:00

noNOno

Apr 14, 2018

集群用 spark 跑 w2v 找相似度?

stevenbipt

Apr 14, 2018 via Android

用统计的方法？

ke1e

Apr 14, 2018 via Android

这不就是推荐系统么

intheplants

Apr 14, 2018 via iPhone

simhash

tcslhg123

Apr 14, 2018

@noNOno 从你给我的方法看来，这个是大数据相关的，有点超出我的技术领域，还是表示感谢，并学习。

neosfung

Apr 14, 2018

simhash 是搜索引擎常用的

Yourshell

Apr 14, 2018 via iPhone

count word

amoia50

Apr 14, 2018

了解一下搜索相关的，@intintheplants 也是一种方法，实际使用基于 solr 和 elastic 构建搜索引擎，先索引数据，再查询

stabc

Apr 14, 2018 via Android

你今天面试，被问这个问题，然后想了一个晚上，今天发帖？

takato

Apr 14, 2018

自变分编码器 + Embedding 搞定

imn1

Apr 14, 2018

@stabc
你也不知道他在哪个时区啊，说不准发帖时他那边还没到零时

zix

Apr 14, 2018

给定一条数据，先用倒排索引用来找候选集，然后用文本相似方法计算相似得到 topn 的结果或者相似超过阈值的结果。

考察效率的话，重点讲倒排索引吧，两两对比怕会被喷死，毕竟有些数据相互之间相似度极低没有去计算的必要能先排除掉就排除掉。考察文本相似的话，可以从余弦相似开始，进一步可能要考虑语义相似，那就上 word2vec 或者深度学习匹配模型。

方法多得很，大框架是这样。

tcslhg123

Apr 14, 2018

@stabc 不好意思。昨天面试，标题上打错了。

zix

Apr 14, 2018

@takato typo: 「自变分编码器」->「变分自编码器」，Variational Auto-Encoder

prolic

Apr 14, 2018 via Android

分解一下，如何识别相似的内容？根据要求，从编辑距离，tfidf，w2v+rnn
应对海量数据？先了解下需求是离线还是流式，离线的话用 MapReduce，spark 等技术，流式的用 kafka，抽取特征，建个特征库，新来的去比较

takato

Apr 14, 2018

@zix 谢谢纠正。平常都是打 autoencoder。。今天迷一样的拼中文。。。