1
stoneabc 2023-07-01 19:43:38 +08:00
NVLink:你说啥?
|
2
AOK123 2023-07-01 19:43:59 +08:00 3
个人认为这个 Up 的受众群体是学生
苹果芯片跑点自己的练手小项目没问题,用它做科研和工程就会吃苦头了 |
4
iloveoovx 2023-07-01 19:48:34 +08:00
只能靠苦 NV 久矣的大佬企业和农企联合
|
5
luhe 2023-07-01 20:05:39 +08:00 3
我现在已经不太敢点进苹果相关的视频了,正反的极端观点都太多...
|
6
felixcode 2023-07-01 20:06:11 +08:00 via Android
终于能突破美国的显卡封锁了,用苹果就对了。
|
7
LeonParker 2023-07-01 20:58:18 +08:00
tensorflow-metal 这个包现在有些 optimizer 都不太能跑。。真不至于
|
8
neopenx 2023-07-01 21:34:46 +08:00
Transformer 的实际需要空间复杂度有很多技术降下去,果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法,M2U 也就和 3060 五五开 |
9
aptx4689 2023-07-01 21:39:31 +08:00
别吹了,m 系列 cpu 是有一些进步,但你要真拿他干活就知道了
|
10
paopjian 2023-07-01 23:12:46 +08:00
有个开头是好的,就怕吹过了,这人压根没详细测试,看看乐子得了.
我记得几年前有个公司还说 m1 吊打 3090 呢 |
11
agagega 2023-07-01 23:39:50 +08:00 via iPhone 13
数码圈 B 友是这样的,始终理解不了世界的多样性,要么看到苹果发 M1 就要进军服务器搞死 IA ,要么觉得自己用不上苹果就觉得用苹果的都是傻逼,苹果这公司就该死。
要么觉得 ARM 一定干死 x86 ,要么喷 ARM 是垃圾还敢碰瓷高贵的 x86 ,然而可能连这两个都只听过名字,问他们什么是指令集,还有哪些指令集,指令集和什么东西有关,一问三不知。 |
12
pC0oc4EbCSsJUy4W 2023-07-02 02:07:43 +08:00
不如等 AMD
|
13
wclebb 2023-07-02 02:16:09 +08:00 6
人家说的是显存吧……
30 系和 40 系撑死也是 24G ,像楼上说的那个 NVlink 也是要几张卡,价格就上去了。价格不光上去,电源、主板等都要上去。有时候看一个角度吧,Apple 还真奇怪的角度会很好抓住痛点。 尝鲜者:太贵了,我想跑 AI ,动不动 100G 显存我买不起 几十万。 Apple:给你了,统一内存只要 四万就能跑。 显示器:太贵了,为什么这个显示器要 xx 万块。 Apple:给你了,Pro Display XDR ,自己看价格吧。 似乎在一些高端领域方面,Apple 倒是很好当成了小米,价格屠杀。 而且 Nvidia 闲置的时候,显存是没啥用的…… 但 Apple Silicon 架构下,内存是共用的……(这内存本来就娇贵,HBM ) |
14
AOK123 2023-07-02 05:22:02 +08:00 4
@wclebb #13
当今很多深度学习的库是要用 nvcc 编译的,然而 nvcc 根本不支持 macOS ,再大显存也没用...拿显存说事的也就初学者和尝鲜者了 另外,8 卡 4090 的整机也就 10 万,哪来几十万? |
15
zpole 2023-07-02 06:52:17 +08:00 1
我个人认为 mac studio 加大内存很适合将来个人做 ai (尤其是大模型)的推理和 fintune 的工作,容易获得,功耗和噪音小,性价比高(要获得同样的 192g 显存 n 卡得用 tesla 计算卡+nvlink )。复杂模型的训练还是得上 n 卡集群,但这是组织的事。至于说因为各种工具还不能很好的在 mac 使用的问题,只要社区认为有价值都是可以更新补全的。
|
16
beijing999923 2023-07-02 07:58:01 +08:00
评论区真有趣
|
17
sharpy 2023-07-02 08:05:46 +08:00 1
总的来说,速度不行,显存还可以。
这方面希望 amd 出一些大显存卡,来打破老黄的垄断,我觉得更靠谱。 |
18
James369 2023-07-02 09:01:20 +08:00
具体没写清楚,有多少并行处理单元
|
19
murmur 2023-07-02 09:59:26 +08:00 1
热评第一就是说苹果不靠谱啊
ai 出图一次都是出几十张 几百张 供选择 这才是生产力用法 一次出一张图那不就是玩具么 2060 级别的矿卡都可以轻松搞定 |
21
0m9ionbP8wuvs8S3 2023-07-02 10:05:47 +08:00
这种哗众取宠的标题我都懒得看
|
22
yzbythesea 2023-07-02 10:22:43 +08:00
我 steam deck ,16G unifi memory ,完爆什么 3080 这些垃圾。只要 350 刀。
|
25
liantian 2023-07-02 10:37:08 +08:00
V2 不应该是"No BB ,Show me code~"嘛。
统一内存那么强大。别说 M2 Ultra 干翻 8 张 4090 了。 M2 Pro 32G 干翻 4090 24G 都没见过.. |
26
echo1937 2023-07-02 11:13:38 +08:00 4
什么赛博坦科技,别闹了好吗,相关技术、概念和产品一直都在发展,benchmark 成绩的话谨慎看待。
1 、最早的时候, 没有核显这个概念,最多算是集显,俗称 IGP ,是主板 PCB 上独立的一个芯片; 2 、随后厂商将显示部分和芯片组中的北桥芯片合二为一,风靡了数年。以 intel 为例,之前 intel 销售的带集成显卡的北桥芯片型号均有一个 G 作为后缀,代表此款北桥芯片中有显示部分。 3 、不久以后,内存控制器被集成到了 CPU 中,那为啥 GPU 就不能这么做呢? Intel 于 2011 年发布了基于 QPI 总线互联的胶水核显 CPU ,代号 Clarkdale 。参考资料 https://www.expreview.com/79385.html 4 、AMD 收购了 ATI 以后,对于 CPU 和 GPU 协同工作的前景非常看好,推出了 HSA 联盟,HSA 特性包括很多分项,比如说共享电源管理、HSA-aware MMU (内存管理单元)、GPU Compute C++,而不仅仅是把 CPU 和 GPU 集成到一起。在这个背景下,AMD 在 2011 年发布第一代 APU ,GPU 和 CPU 不再是胶水,真正意义上的核显。 5 、2014 年 PS4 发布,使用了 AMD 的 APU Kaveri APU ,实现了名为 Heterogeneous Memory Management 的特性,CPU 的 MMU 和 GPU 的 IOMMU 共享相同的地址空间,从硬件层面实现“共同地址空间”。PS5 沿用了这个技术路线,AMD 有个叫 4700s 的型号,用的就是 PS5 阉割掉 gpu 的 soc ,使用 gddr6 做内存。 6 、看过 4700S 极客湾测评就知道,由于 gddr 频率和带宽大,但是 延迟高( gddr6 vs ddr4 ,测评成绩来看,延迟 144.1ns vs 67.8 ns ),所以日常使用体验并不好。 7 、果子出场了,体验不好是吧,俺有钞能力啊。延迟高是吧,那我换 ddr ;功耗大是吧,那我上 lpddr ;带宽不够是吧,普通 ddr4 内存和控制器的位宽是 64 位,m1 用了 128bit 的内存控制器,m1 pro 使用了 256bit 的内存控制器,m1 max 是 512bit 内存控制器,带宽和延迟都齐活了。 8 、大模型时代来了,显存大小和带宽的重要性反而超过算力。苏妈一看,我生态不行,ROCm 是真打不过 CUDA ,堆料谁不会啊,APU 和 Chiplet 还是我历史强项。 MI300A - 6 XCDs (Up To 228 CUs), 3 CCDs (Up To 24 Zen 4 Cores), 8 HBM3 Stacks (128 GB) MI300X - 8 XCDs (Up To 304 CUs), 0 CCDs (Up To 0 Zen 4 Cores), 8 HBM3 Stacks (192 GB) 其中 MI300A 就是一个最高 24 核,228CU ,128GB HBM3 内存的的 APU ,引用一下 AMD 的官方内容: “AMD 的 Instinct MI300 APU 系列将与名为 SH5 的全新插槽兼容,允许使用最新的 Infinity Fabric 互连和新的互连交换机将最多四个此类芯片配置在一起,以实现更快的带宽和互连速度。该服务器解决方案将以 AMD Instinct 平台的形式出现,该平台由 8 个 MI300 芯片组成,具有高达 1.5 TB 的 HBM3 内存,全部采用行业标准设计。” Intel 和 NV 也有类似的,其中 INTEL 的产品计划叫 Falcon Shores ,定于 2025 年发布。 |
27
AyaseEri 2023-07-02 11:19:45 +08:00 1
在一个满是学生、matlab 和 cad 需要在自己电脑跑的社区,讨论生产力,无疑是一种浪费时间的行为。
|
28
murmur 2023-07-02 11:21:53 +08:00
@AyaseEri 对啊,难道你们公司和实验室买不到 A100 显卡么,这东西虽然对 H 禁售,但是想买总是有渠道的,而且不是有定制版本卖么
至于国外,人家买 A100 又没什么难度,最多是等发货慢点 所以个人要这么好的机器干嘛,个人就是用 2080ti o22g 就够了 |
29
locoz 2023-07-02 12:19:52 +08:00
@wclebb #12 问题在于,对于只想尝鲜的人来说,跑大模型完全可以使用租机的方式解决,几万块够用很久了,使用体验完全碾压苹果,而且三分钟热度也不用担心浪费钱,配置过时了也不用担心没法升级。而对于需要实际长期使用大模型,或者是对大模型做微调,甚至是自己训练大模型的人来说,苹果那点算力又根本不够看。更别提对于绝大多数人来说根本都没有必须私有化部署的必要,几万块拿来调 GPT4 的 API 或者买别人的会员,实际使用时长都不用说,使用体验更是没法比。
至于内存闲置利用,如果只是尝鲜这种轻度使用情况,为了跑大模型而买的大内存,那对于大内存大概率也没有需求,实际买来的内存还是在浪费;如果是重度一点的使用情况,那这内存也闲置不下来,全被大模型吃完了,跑不了什么别的东西。 另外苹果的 XDR 显示器很大程度上是因为显示器厂商认为那个领域太过小众,面板平均水平还没提升到那种程度,没有必要特意为了小众用户而做那种产品。但对于苹果来说,自己的核心受众群体就是那部分在显示器厂商眼中小众的用户,它当然愿意去特意做个产品卖,成本也摊得开,价格在这种情况下看起来当然会有优势。 只能说不要尬吹苹果什么高端领域价格低,那只是因为小众群体没人在乎,可选项少而已。可选项一多起来,苹果毫无价格优势。 |
30
WuSiYu 2023-07-02 16:15:16 +08:00
假设你能搞定一切环境的问题(没 kernel ?自己写!),m2 ultra 的唯一优势也只是显存,然而算力仅有 30TFLOPs 不到(无论是 GPU 还是 ANE ),比起主流炼丹卡 A100 的 156 FLOPS ( TF32 )就是图一乐,甚至远不如 3090 ,并且一个 10Gb 口也可以告别分布式训练了。
唯一场景是个人玩家跑大模型和推理,或者跑龟速的 finetune ,但有这钱其实不如搞个 8 卡 3090/4090 更实用、且生态和泛用性更好 |
31
shijingshijing 2023-07-02 17:18:00 +08:00 3
|
32
ospider 2023-07-02 17:59:03 +08:00
Transformer 翻译成变形金刚?非要翻译的话,也应该是变形器或者变换器。
|
34
julyclyde 2023-07-02 22:27:24 +08:00
好像,性能除以功耗之后勉强说得过去?
但现在做这行的老板们根本不在乎功耗啊 只看原始的性能测量值 |
36
fengtianze 2023-07-03 10:44:59 +08:00
@AOK123 八张游戏卡咋连一起,不是双卡都给阉割了?
|
37
fengtianze 2023-07-03 10:47:32 +08:00
@aptx4689 真是不辞辛苦啊,其他帖子下刷到过一次不差的回复,见到 mac 就 ctrl v ?🤣
|
38
aptx4689 2023-07-03 21:26:37 +08:00
@fengtianze 😅?
|
39
phub2020 2023-07-04 10:18:40 +08:00
厂家有竞争了,就是好事
|