V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
songjf
V2EX  ›  问与答

以 docker 的方式配置多台主机的 gpu 集群,想来咨询大家一些细节

  •  
  •   songjf · Nov 7, 2019 · 2113 views
    This topic created in 2373 days ago, the information mentioned may be changed or developed.

    最近有深度学习的大量需求,需要搭建一个 gpu 集群方便大家一起使用。

    我的初步想法就是:

    1.自己购买显卡,cpu,主板等组装多台主机(这个就后续慢慢看用些什么显卡了)

    2.通过 docker swarm 的方式将这些电脑连接在一起,使用 docker 的目的就是为了隔离开每个用户,同时也保证了每个人的 root 权限, 大家可以通过 ssh 服务登录到自己创建的容器内。除此之外,通过 swarm 这样子每个人可以使用不同主机的显卡进行训练,不用在每台机器上反复配置。

    3. docker swarm 会有一个管理节点和计算节点,我网上调研的结果就是通过 Infiniband 网络连接存储节点来完成运算数据的读取和存储。其实在这里我有个问题,这样子的话能否保证一个读写的速度,还想来请教一下过来人。另外,是否可以各台主机有自己的系统存储外,一起共用一个数据盘,不知道如何实现这个。

    资金有限,也是在慢慢摸索不断进步,网上搜索到的教程都是些零零碎碎的。谢谢大家听我啰啰嗦嗦到这,如果有过来人搭建过愿意分享的那真的是万分感谢的。如果大家看到些什么好的教程也可以丢给我,有什么好的想法也可以告诉我,谢谢大家了。

    1 replies    2019-11-07 19:07:49 +08:00
    songjf
        1
    songjf  
    OP
       Nov 7, 2019
    有幸看到的话, 请移步到 https://www.v2ex.com/t/617275
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2929 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:26 · PVG 23:26 · LAX 08:26 · JFK 11:26
    ♥ Do have faith in what you're doing.