V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
einvince
V2EX  ›  Hadoop

如何低成本地搭建 hadoop、spark 等大数据集群学习

  •  
  •   einvince · 2018-04-18 10:20:06 +08:00 · 7534 次点击
    这是一个创建于 2409 天前的主题,其中的信息可能已经有所发展或是发生改变。
    买了两个腾讯云等 1G1 核,发现跑不起来,默认配置太高,调来调去 demo 都 run 不起来
    28 条回复    2019-05-28 08:39:09 +08:00
    defunct9
        1
    defunct9  
       2018-04-18 10:32:18 +08:00
    跑不起来的,自己找台机器,用 vagrant 来吧
    user919lx
        2
    user919lx  
       2018-04-18 10:34:50 +08:00
    建议自己买一台高配置电脑,开多个虚拟机。同样可以达到模拟集群的效果。
    abmin521
        3
    abmin521  
       2018-04-18 10:45:32 +08:00
    建议自己买一台高配置电脑,开多个 Docker。同样可以达到模拟集群的效果。
    einvince
        4
    einvince  
    OP
       2018-04-18 10:46:10 +08:00
    @defunct9 @user919lx 得几核几 G 得机器
    defunct9
        5
    defunct9  
       2018-04-18 10:54:55 +08:00
    我是用服务器,40 核,128G 内存,4T 盘
    xenme
        6
    xenme  
       2018-04-18 10:55:08 +08:00
    去搜 X79,单路或者多路吧。性能高还便宜。
    defunct9
        7
    defunct9  
       2018-04-18 10:56:21 +08:00
    不用 docker 的理由,vagrant 是 kvm,跟真实环境一样,docker 是半虚拟,还略有不同
    真实环境的的应该全是实机,集群大概 600 台,要考虑的也很多(从运维方面)
    depress
        8
    depress  
       2018-04-18 11:14:35 +08:00
    我自己电脑 i7+20G 内存+500G 硬盘,开 4 个虚拟机刚好,你自己看吧...
    whatsmyip
        9
    whatsmyip  
       2018-04-18 11:20:35 +08:00   ❤️ 1
    Spark 可以上 databricks,免费 6G,但是需要信用卡

    Hadoop 的环境,可以去撸 Google cloud 的羊毛,学完以后也就用不到了,同样需要信用卡

    如果没有信用卡,楼主大概是学生吧,可以联系实验室,进组学习,集群资源还是有的
    einvince
        10
    einvince  
    OP
       2018-04-18 11:37:52 +08:00
    @defunct9 厉害了,老哥,多谢分享
    einvince
        11
    einvince  
    OP
       2018-04-18 11:38:27 +08:00
    @whatsmyip Google cloud 等机器配置够吗
    einvince
        12
    einvince  
    OP
       2018-04-18 11:52:05 +08:00
    @whatsmyip 注册了个 databricks,貌似很猛等样子
    cyspy
        13
    cyspy  
       2018-04-18 12:37:14 +08:00 via Android
    docker
    abmin521
        14
    abmin521  
       2018-04-18 15:08:35 +08:00 via Android
    @defunct9 知乎 狗东的 hbase 都在 docker 上 他们都没有考虑到吗。。。
    bbx
        15
    bbx  
       2018-04-18 15:43:00 +08:00
    @defunct9 本地的 docker 就行。这年头还有 barebone machine 上直接跑的? 600 个 node 不 mesos 之类的不得烦死
    bbx
        16
    bbx  
       2018-04-18 15:46:43 +08:00
    话说 spark 本地 docker compose,一个 master,一个 slave。简单到不行,google 一下估计一大堆 docker 现成的
    帮你找了一个,我自己没试,不过应该问题不大
    https://github.com/gettyimages/docker-spark
    MonoLogueChi
        17
    MonoLogueChi  
       2018-04-18 15:53:17 +08:00 via Android
    你是实际生产还是只是用来学习,我前两天开了三个虚拟机搭了一个 Hadoop 和 spark,在我电脑上跑跑还行,但是 spark 负载搞了主机就会炸。后来我把虚拟机导出到我同学电脑上,在他那三台虚拟机刚开机,主机就已经卡得不行了。
    所以说,自己想真正跑起来的话,自己花点钱去买两台实体机,或者是收点二手洋垃圾试试看吧
    yuanfnadi
        18
    yuanfnadi  
       2018-04-18 15:55:11 +08:00
    @einvince 按量付费的机器。选择竞价类型。大约 1 毛一小一台。
    10 台机器价格为 1 元 1 小时。
    顺便可以学习一下批量机器运维。
    owenliang
        19
    owenliang  
       2018-04-18 15:55:30 +08:00
    玩的话为什么不在自己笔记本上跑。。
    yuanfnadi
        20
    yuanfnadi  
       2018-04-18 16:01:17 +08:00   ❤️ 2
    阿里云 ecs.c5.large 2 核 4g 的 机器竞价 目前价格 ¥ 0.16 /时
    自己先买一台。配好环境之后保存成自定义镜像。使用 弹性伸缩 配置好一次开启 10 台和关闭 10 台 使用之前自定义的镜像。
    随用随开,成本超低。
    einvince
        21
    einvince  
    OP
       2018-04-18 17:05:45 +08:00
    @bbx 谢谢,但现在的主要矛盾是机器 CPU 和内存资源有限
    @yuanfnadi 老哥,你这方法有点 6,发现新大陆了,就这么搞
    startar
        22
    startar  
       2018-04-18 17:18:50 +08:00 via Android   ❤️ 1
    学习的话,不用搭集群,搭伪分布式模式的 hadoop 就行了,毕竟你的关注点在于在于大数据处理,而不是主备高可用之类的工程问题。我家里的 4 核 16G 机器跑得很 ok。
    startar
        23
    startar  
       2018-04-18 17:44:31 +08:00 via Android
    而且不建议用云主机。。还是太贵。自己配一台就是了。内存要尽可能大,其他无所谓
    bbx
        24
    bbx  
       2018-04-18 17:53:39 +08:00
    @einvince 目前好点的笔记本 4core 16Gb 外加 ssd 比便宜的所谓的云主机好不知道哪去。百万数据或者几个 G 左右的一台笔记本差不多就行了
    gabon
        25
    gabon  
       2018-04-18 18:48:46 +08:00 via Android
    1 核 1g。。
    yjd
        26
    yjd  
       2018-04-18 19:30:23 +08:00 via Android
    淘宝买台二手服务器。便宜
    einvince
        27
    einvince  
    OP
       2018-04-18 19:58:04 +08:00
    @yjd 666,好便宜
    autogen
        28
    autogen  
       2019-05-28 08:39:09 +08:00
    淘宝搜 X79 服务器(16 核 32 线程,64G 内存,整机 3000 元左右)或者 X58 服务器(12 核 /24 线程,48G 内存,整机 1000 元左右)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5137 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:18 · PVG 09:18 · LAX 17:18 · JFK 20:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.