比如这样的 https://github.com/program-in-chinese/ChromeCrawlerWildSpider ?
当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.
1
ericv 2018-09-14 14:35:19 +08:00 1
直接 node 拉请求,然后保存所有请求就可以吧,我做的性能没仔细测,但是肯定省去了浏览器渲染的那一步,不知是不是你要问的
|
2
xuanwu OP 对 浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.
|