V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
1014982466
V2EX  ›  硬件

搞 AI 的话同样价格是 3060 12Gx2 好还是 4060Ti 16G 好?

  •  
  •   1014982466 · 2023-09-18 16:32:33 +08:00 · 2209 次点击
    这是一个创建于 431 天前的主题,其中的信息可能已经有所发展或是发生改变。
    研究生组里面想搞自然语言处理,大语言模型(仅推理不训练)等等。
    现在 1 万每台的预算,要 N 卡还是大显存显卡 只能是 3060 12Gx2 (¥ 3400 )或者 4060Ti 16G (¥ 3500 )
    因为要正规渠道且开发票所以 2080Ti 22G 或者 P40 那些是肯定不行。
    所以就想问下搞过 AI 的,两张 3060G 看似 22G 显存性价比很高,有没有什么坑,比如双卡兼容性或者不支持双卡等等
    4060Ti 的话最省事,而且单卡不挑机箱电源,但是就怕 16G 显存不够用

    请大佬们解答
    15 条回复    2023-09-19 02:05:48 +08:00
    karatsuba
        1
    karatsuba  
       2023-09-18 16:33:57 +08:00
    lkwfive
        2
    lkwfive  
       2023-09-18 16:36:40 +08:00
    显卡容量优先于算力,去官网确认下 3060 能不能组网,能的话就选这个
    Takizawa
        3
    Takizawa  
       2023-09-18 16:37:22 +08:00
    还不如内存加大一点,用共享显存
    wipbssl
        4
    wipbssl  
       2023-09-18 16:39:56 +08:00
    说实话不如租服务器,硬要选的话可以试试 3060*2 ,用 ddp 训练应该比 4060ti 强
    daweii
        5
    daweii  
       2023-09-18 16:43:34 +08:00 via iPhone
    colab 买算力
    1014982466
        6
    1014982466  
    OP
       2023-09-18 16:52:24 +08:00
    @karatsuba #1 @wipbssl #4 有没有推荐的平台?适合学生的
    qqjt
        7
    qqjt  
       2023-09-18 16:58:49 +08:00
    我的话会选 4060ti ,双卡的话可能的坑更多。这俩个方案其实都只能学习性质,正儿八经训练得加钱。
    JayZXu
        8
    JayZXu  
       2023-09-18 17:16:19 +08:00
    大显存 比 多卡兼容性更好,支持项目更多

    不过这两个卡 CUDA 性能都不咋地,也就入门玩玩的水平

    预算不高,同样建议 colab
    wipbssl
        9
    wipbssl  
       2023-09-18 17:18:47 +08:00
    @1014982466 矩池云、featurize 、autodl 等等挺多的。
    wipbssl
        10
    wipbssl  
       2023-09-18 17:20:01 +08:00
    其实可以看看能不能和华为百度之类的合作,他们都有自己的深度学习框架,目前还在推广,给机器挺大方的
    seres
        11
    seres  
       2023-09-18 17:20:42 +08:00
    2080Ti 魔改 22G
    matchalatte
        12
    matchalatte  
       2023-09-18 17:37:58 +08:00   ❤️ 3
    双卡推理目前有两种方案:
    - 流水线并行:把层划分到不同 GPU 上,比方说切成前半后半,每次计算先用 gpu1 ,再用 gpu2 。好处是实现简单,缺点是推理延迟会变得很大。参考 ChatGLM 的一个多卡部署实现: https://github.com/THUDM/ChatGLM2-6B/blob/main/utils.py
    - 张量并行:把每个参数切片到所有 gpu 上,每次乘法完做一个 all reduce 。这个手写修改源代码很困难。比较简单的方法是套用 deepspeed zero3 ,accelerate 库也有这个功能。参考: https://huggingface.co/docs/accelerate/usage_guides/deepspeed

    如果用上 deepspeed 的话,还有个单卡多卡都可以用的方案
    - deepspeed 有 cpu_offload 和 nvme_offload ,可以自动把没用到的权重下放到内存/磁盘里,再把要用的挪到显存里,这样理论上多大的模型都能跑,但是对内存和磁盘要求比较高,而且推理很慢。

    需要注意的几个点:
    - 双卡如果是 hf 模型,适配起来比较简单,调用 accelerate 库就可以了。但一些小众框架就很麻烦。多卡推理具体方法就是前面提到的两个。
    - 3060 没有 nvlink ,双卡间通信是走内存,会很慢,而且 worker 开的多也会更吃内存。一万的预算不知道配了多少内存,跑大模型对内存的要求非常高,这个需要注意。
    - 双卡需要注意主板的第二个 pcie 插槽能否跑到满速( x16 ),如果 x8 或者 x4 会降低通信速度,本身多卡就挺吃通信的。还有些主板第二个 pcie 还会和 nvme 硬盘槽位冲突,这些都得确认一下。
    - 如果你们组不止一个人用,双卡会方便一些,在必要时可以分给两个人分别干不同的事情。
    - 单张 4060ti 放的下模型的情况下,推理会比两张 3060 快。3060 虽然有 12Gx2 ,但分布在不同的卡上,计算需要来回通信,在推理时通信开销往往是比计算大很多的。

    不过就像前面几层说的,仅推理 colab 就比较够用。自己组服务器还有维护、配置的一些成本,包括像内存要求这些问题。建议再三考虑。
    jhdxr
        13
    jhdxr  
       2023-09-18 17:55:34 +08:00
    没搞过上来就像挑战双卡难度有点大。。。除非就是跑跑别人现成已经调好的
    OysterQAQ
        14
    OysterQAQ  
       2023-09-18 17:58:15 +08:00
    得加钱 不然就💰全花显卡上 其他另外配 只报销显卡
    talkischeap567
        15
    talkischeap567  
       2023-09-19 02:05:48 +08:00
    4090*n
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2338 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 16:00 · PVG 00:00 · LAX 08:00 · JFK 11:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.