求问一个关于爬虫数据库的问题

This topic created in 2806 days ago, the information mentioned may be changed or developed.

做了一个 ebay 产品和评价的爬虫, 目前大概有 1 万卖家, 1 亿产品和 1 亿评价数据, 用的 mysql.

插入数据到感觉还行, 但是查询很慢, 请问类似这样的数据应该采用什么样的数据库架构呢? 我对 nosql 什么的不熟, 不知道该不该用, 也不知道能不能达到灵活的查询需求.

另外预计还有现在量的 5 倍的数据需要抓取, mysql 能撑得住这么大的量吗? 不知道上限是多少? 如果要换架构换数据库, 应该要换什么样的?

谢了!

MySQL

数据库

爬虫

数据

11 replies • 2021-02-19 00:12:54 +08:00

PHPer233

Sep 6, 2018 via iPhone

我也做爬虫，数据量大导致查询很慢，求解决方案。

golmic

Sep 6, 2018

大规模抓取、储存是很大一部分内容。单说楼主提到的查询慢的问题，也要具体一下是搜索什么。精确查找还是模糊搜索，直接搜商品 title 还是商品 id。查询的需求是什么，是提供后端搜索服务还是别的。

如果不针对特定问题的话，感觉并没有什么通用的解决方案。

lostvincent

Sep 6, 2018

具体问题得具体分析
数据量大，各种速度慢可能需要集群之类，比如 mysql 的话上类似 https://github.com/flike/kingshard
或者分页太慢，需要优化查询，（以 mysql 为例）比如考虑 late row lookup
etc ...

yesterdaysun

Sep 6, 2018

@golmic 主要是标题搜索, 用 like, 其他的会做一些 group by, 都挺慢的, 暂时不提供搜索服务, 只是不时的做一些数据分析.

因为暂时没有提供搜索服务的需求, 所以搜索慢还不是不能接受, 关键现在有点担心量再大几倍后, 连插入都很慢, 查询时间也变得不能接受, 想问有没有更好的架构, 趁数据还少把底层调整好

golmic

Sep 6, 2018

单说大规模插入慢，可以用 HBase ；单说做数据分析的查询慢，尝试导入到 Hive 中去做查询；单说提供搜索服务，PB 量级以下 ElasticSearch 就能支撑的很好。

gabon

Sep 6, 2018 via Android

@yesterdaysun like 为什么不考虑一下啊用 elastic search，MySQL 用的什么引擎，like 不一定能走索引，表扫数据量大了肯定慢。我也爬了几千万条数据，开始用的是 MySQL，后来改成了 MongoDB，爬回来的数据是 JSON 格式的，处理一下直接丢到 MongoDB 里面很方便。我打算把数据同步到 ES，查询性能应该会提高很多。ES 也可以做一些数据分析。

tinybaby365

Sep 6, 2018

小规模数据存储：NoSQL （如：SSDB ），进 ElasticSearch 索引；大规模数据用 hadoop 生态，选一种列存储，用 hive 查。

bingfan

Sep 7, 2018

mysql 怎么能用 like 呢,老老实实存点数据就行,搜索用 ElasticSearch,没有啥能力的话,也可以用阿里云的 OpenSearch,直接后端对接 mysql,代码都不怎么改就搞定

yesterdaysun

Sep 7, 2018

@bingfan @gabon @golmic @tinybaby365 感谢各位回复!

我准备在阿里云找个合适的服务解决这个事, 但是一眼看过去好多,什么 opensearch, maxcompute, e-mapreduce,分析型数据库, 都不知道哪个合适. 请问各位有用过这些吗?

我的需求就是不做搜索服务, 就是单纯的大量爬虫数据存储(200GB+), 加数据分析, 可能用到文本搜索,大量数据结果导入导出, 还有一些 group by, sum, count 之类的统计分析. 求大神推荐一个! 多谢!

golmic

Sep 7, 2018

maxcompute 可以详细了解一下，一方面是解决大规模的数据储存，另一方面支持 HiveQL 做数据分析，关于 HiveQL 你可以简单理解为 SQL，再就是方便进行导入导出。还可以配置任务流实现每天数据任务自动化。

no13bus

Feb 19, 2021

@yesterdaysun 楼主后来定下来最终的解决方案了不？我也遇到了类似的问题了