除了 Elasticsearch 还有什么技术能做京东淘宝那样的属性筛选

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3305 days ago, the information mentioned may be changed or developed.

目前项目里用的都是 sql where 条件拼接的，爬虫一来很容易挂了，有什么解决方案么。直接 cache key 会比较多

21 replies • 2017-05-05 12:58:07 +08:00

gouchaoer

May 4, 2017 via Android

商品分类以及排序推荐那是非常困难的任务，没团队很难搞定的

undeflife

May 4, 2017

这种筛选是给人用的而你需要爬虫抓取的是最终的产品页给爬虫一个单独的入口暂时可以缓解你这个爬虫一来就挂的情形

wudanyang

May 4, 2017

solr

hiboshi

May 4, 2017

@undeflife 可是这样只能防止爬虫不能防止恶意扫站吧

hiboshi

May 4, 2017

@gouchaoer 有什么想法没有？

pierre1994

May 5, 2017

es 做不了吧

jarlyyn

May 5, 2017

爬虫挂了，不是应该先缓存 /限制访问频率么？

key 多也不需要你收官算吧？

terranboy

May 5, 2017

把数据扁平化 ES 其实也是这个意思

ihuotui

May 5, 2017 via iPhone

静态化 freemaker ftl

byfar

May 5, 2017

爬虫一来很容易挂了，你确定问题出在数据库上？数据库单独放一实例上或使用云服务？

Elasticsearch 不用的话，可以考虑一下 sphinx ( http://sphinxsearch.com/ )

当然还是要先定位问题，找到需求点再改造。

yanzixuan

May 5, 2017

@byfar sphinx 是静态的，es 是动态的，各有优劣。
至于 solr 感觉配置好烦，还不如 es。
不知道为啥 LZ 不愿意用 ES。

byfar

May 5, 2017

@yanzixuan sphinx 支持动态索引（ http://sphinxsearch.com/docs/current.html#rt-indexes ）

另外静态也可以改造成近时时的，看需求选择。

Elasticsearch 没有试过，不敢评论，不过我知道很火。

walkershow

May 5, 2017

我们网站都用 sphinx,快,省内存

jianzhiyao

May 5, 2017

if($http_user_agent ~* "spider")

hiboshi

May 5, 2017

@jianzhiyao 这样不能防止恶意爬虫

undeflife

May 5, 2017

@hiboshi 恶意爬虫就 ban 掉, 设置请求频率用运维手段是可以处理的
你现在碰到的问题跟实现方式（拼接查询条件）并没有太大关系，爬虫一来就挂，是为什么挂? 数据库连接数太小还是查询效率太低? 如果不能找出问题真正的原因，换一种解决方案可能还是挂.

hiboshi

May 5, 2017

@undeflife 都存在，目前一部分是想完善这部分代码段，我们的商品比较多几十万种，爬虫部分也在封 IP 至于限制频率目前在研究 apache 的相关模块。

undeflife

May 5, 2017

@hiboshi Elastic 挺好的配置使用都很简单, 除了新版对机器配置要求高点..

hiboshi

May 5, 2017

@undeflife sphinx 呢，这个不太清楚。

sunchen

May 5, 2017

属性全部扁平化，类似 tag，至于动态排序那就只能硬抗了

hiboshi

May 5, 2017

@yanzixuan
@undeflife
不用 ela 的原因，他们是通过接口拿数据我们有 google 爬虫这些属性也需要爬取的。