先贴地址:
http://shixiz.com
用 elasticSearch 作为搜索引擎,数据来自 v2ex 的 api 接口
索引了全部主题和大部分回复(主题目前半小时更新一次,回复还未开始更新)
这几天刚刚加上了中文分词,可用性总算达到了及格线。
自己 YY 了一种简单的`综合排序`方法
log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间)
同时还可以根据 `发布时间` `回复数` `匹配分` 对结果排序。
部署在 ec2 上,索引全部数据居然用了两天啊,妈蛋。是分词用的词库太大?
p.s. 回贴最好贴下`搜索关键词`和`结果评价`
感恩 :)
http://shixiz.com
用 elasticSearch 作为搜索引擎,数据来自 v2ex 的 api 接口
索引了全部主题和大部分回复(主题目前半小时更新一次,回复还未开始更新)
这几天刚刚加上了中文分词,可用性总算达到了及格线。
自己 YY 了一种简单的`综合排序`方法
log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间)
同时还可以根据 `发布时间` `回复数` `匹配分` 对结果排序。
部署在 ec2 上,索引全部数据居然用了两天啊,妈蛋。是分词用的词库太大?
p.s. 回贴最好贴下`搜索关键词`和`结果评价`
感恩 :)