Scrapy 爬取数据直接存到 Hadoop 中有什么方法吗？ - V2EX

Home Sign Up Sign In

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

Sign Up Now

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3230 days ago, the information mentioned may be changed or developed.

之前都是存到本机 MySql 数据库，这一次需要存到远程的 Hadoop 服务器中，实现边爬边存，不落到本机，请问有什么方法吗？有什么插件可以实现 Scrapy 和 hdfs 的连接呢，还是说需要自己写一个？求大神解答

15 replies • 2017-07-03 22:43:18 +08:00

1

defunct9

Jul 3, 2017

自己写个

2

songjiaxin2008

Jul 3, 2017

这就是个 pipeline 吧就跟换成 mongoDB 一个意思

3

1iuh

Jul 3, 2017

thrift
或者用 java 写个接口接收数据。
我之前也遇到过类似的问题，至少我没有找到 python 直接连接 hdfs 的库。

4

dropwater

OP

Jul 3, 2017

@defunct9 初学者，有点吃力。还是想找造好的轮子
@songjiaxin2008 这个能再详细指点一下吗？好像是没有现成的...
@1iuh 谢谢指点，我去试一试。python 直接连 hdfs 查到了一个 pyhdfs，不过也还没找到 scrapy 直接连的办法。

5

songjiaxin2008

Jul 3, 2017

https://doc.scrapy.org/en/latest/topics/item-pipeline.html 可以看'Write items to MongoDB' 或者 json 那一节，这边你要先和 hadoop 建立连接，然后自己实现‘ process_item ’这个方法。因为`scrapy`是解耦的，并不关心你的存储后端。

6

1iuh

Jul 3, 2017

@dropwater #4 看了下这个 pyhdfs，只有 10 个 star 呀，你确定没坑？

不过话说回来，只要这个 pyhdfs 可以工作，你就可以用呀。scrapy 接收到数据，然后调用这个库直接写入数据就行了。异步这块要处理一下，不然影响效率。

你要是想找 scrapy-hdfs 这种库肯定是找不到的。我还是建议你用 java 直接写个接口。

7

F281M6Dh8DXpD1g2

Jul 3, 2017 via iPhone

不要直接写 hdfs,效率低到哭
搞个管道，爬完写到管道里，那边消费到 hdfs

8

defunct9

Jul 3, 2017

哎，地球这么大，给个可行方案吧。
建立个 kafka 队列，然后 python 写 kafka 的轮子必然是有了。
kafka 写 hdfs 那是顺理成章，这样就搞定了。

9

ym1ng

Jul 3, 2017

Mq 加 logstash 直接搞定，scrapy 的 pipeline 里面把数据打到 mq 里，logstash 的 input 是 mq，output 是 hdfs

10

est

Jul 3, 2017

@defunct9 这个是正解。写 kafka

11

stcasshern

Jul 3, 2017

存在 hdfs，我理解的 hdfs 不是一个文件系统吗？？数据难道不是存在各种数据库？要直接写的话，就是改 pipeline 吧。

12

defunct9

Jul 3, 2017

hdfs+hbase，这个路数。或者直接 kafka+spark，计算去了。

13

zhaob

Jul 3, 2017

Scrapy 爬取的数据存成日志
再加一个 Flume 把日志同步存储到 HDFS

14

timothyye

Jul 3, 2017 via Android

需要一个消息队列

15

knktc

Jul 3, 2017

直接写 flume 呗，flume 用个 http 的 source 和 hdfs 的 sink，不会增加什么开发量

About · Help · Advertise · Blog · API · FAQ · Solana · 5637 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 82ms · UTC 07:32 · PVG 15:32 · LAX 00:32 · JFK 03:32
♥ Do have faith in what you're doing.