V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  coefu  ›  全部回复第 1 页 / 共 58 页
回复总数  1154
1  2  3  4  5  6  7  8  9  10 ... 58  
1 ,开源 70B 以下参数的 moe 逻辑能力比 dense 差太多了。

层宽和层深之间有个甜点位,不同参数量的甜点位又不同。总体来看,那几个大的 moe ,active 的 expert 层数应该都要搞到 40 ~ 60 ,在宽度上做取舍。

gemma4 E4B 有 42 层,比 qwen3.5 9B 的 32 层 更深,按理来说,逻辑能力应该更好,但是受限于总参数量导致的宽度窄,表征能力不行,所以更容易在逻辑推理的起始位就跑偏,导致整个推理完全无法收敛。这点,通过中等数学的奥赛题可以验证。就算是 gemma4 E4B 横向增加 experts + router ,把总参数也堆起来,依然也无法解决问题。

2 ,dense 只需要在原始架构上达到了甜点位,横向+experts + router ,依然很能打。如果这种架构做层 plug-in 模式,更有搞头。总体来看,在 linear attention 这条路线上来看 qwen3.6 27B 已经是甜点位了。在纯 transformer 路线上来看 gemma4 31B 似乎也到了甜点位。如果可以搞一个 plug-in 架构,类似 TTT 模式,那真的就是开源福音。
8 天前
回复了 faketemp 创建的主题 Local LLM 有没有能够兼容 Win7 的离线模型工具
先在 window 7 指定的版本里 搞定 docker ,然后在外面把所有依赖都封装进 docker 。
以前都说 LLM 是推理下一个字符,所以有可能算错 10+11 这种最基本的计算题。

你说是就是?这个因果是你自己想当然定义的?先定义了一个错的 A ,反推出一个正确的 B 。
10w ,我可以弄。
10 天前
回复了 KJH 创建的主题 程序员 Doris 增量数据刷新方案
加他们群问。
11 天前
回复了 YanSeven 创建的主题 投资 关于股票游戏的疑问
这就是被收割的对象啊 ,没他们亏,怎么有别人赚?
另外,更多的是认知灵感先验,很多人以为是数学为先,恰恰没领悟到真谛。很多真正的架构,都是灵感迸发在前面,为什么起作用,都是数学后验。

残差结构,并不是先在数学上验证有效,而是先用起来有效,后续补上的数学验证。就是灵感的迸发,搞那么个结构看看是否有效。

同样的 Hinton 2022 年的 FF 网络,也是灵感在前面,后面数学上验证。

符号主义就是喜欢在数学上精雕细琢,把 梯度计算优化到极致,也不如一个新范式不再需要梯度计算 就能起作用。但是后者需要的是 在交叉领域里迸发的顿悟。

细节重要吗?当然,但是当下,细节可以交给 Gemini/ChatGPT 。
你之前起点的雄心壮志是值得肯定的,但是后续的方式方法又有点儿钻牛角尖了。

LLM 模型架构这块所有你目之所及,能伸手就摘到的果实,都被摘完了,这就是你钻的牛角尖。

你的目的是在推理的工程架构优化上找点突破,但是那块领域,本身就是一亩三分地,犁了又犁,锄头都快抡散架了也挖不出什么好东西。于是试图回到第一性原理的角度搞点突破,但是钻到了被犁的更烂的地。

LLM 这块,现在又回到了当年 符号主义的那拨人的时代,在上面精雕细琢。在别人的范式下搞,学界是上班,工业界也是上班,做点事拿点钱嘛,不寒颤。

真正的突破是范式创新,你要是能走出 反向传播,transformer 的这些显学窠臼,或许能有一番作为。上等人立志,但是也要警惕志大才疏。
另外,东方财富这种没有什么实质生产力的,你看看它的票,每天什么交易量。先有点 金融常识吧。
痴心妄想。

首先,数据源你就搞不到。别的都不用说了。没有资质,1000w 你也拿不到。
15 天前
回复了 davidyin 创建的主题 Local LLM 想折腾一个 AI 主机,请行家出手
@Nidhoggur 母鸡,我也没这资源跑过这种大模型啊。
16 天前
回复了 davidyin 创建的主题 Local LLM 想折腾一个 AI 主机,请行家出手
@davidyin #33 真正的行家来告诉你,2000$的方案。

amd epyc 单路 9004 12 通道 ddr5 主板,目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时,12 个通道的总带宽约为 500GB/s 以上。使用更高频率(如 6400 MT/s )的内存时,理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

ddr5 6400 16G 目前单条价格大概 700*12 ,8400

amd epyc 9124 cpu 目前大概 4000

总成本正好 2000$ 左右。

此时,你有 192G 内存( Qwen3.5-122B-A10B ,这种都能跑),带宽 500 ~ 614G 左右,500G 的带宽足够让你跑 MOE ,20 ~ 25 token/s ,再加一块几百块的 16G hbm2 gpu ,完全够。
你这么搞的适得其反,你这个也不是大家刚需的非 GA 不可,大把竞品。你逞一时嘴快,网上嘴炮赢了别人又如何?但是你这个项目,因为你盛气凌人的态度,把看法由你而引申到你的 GA ,恰恰起了反作用。本来中立的人,也会考虑考虑了。

别人蛐蛐你,你当然可以反击,如果只是生活区为了某个点嘴炮,输赢都是无所谓的。你带着目的来,这就不同了,你赢了输了,都和你宣传的 GA 隐性的关联上了。

我看了你的这些推广,没有去 GitHub 点 star ,也没有用 GA ,就不是智力正常的人了?

@h4nru1 #66
@h4nru1 #22 这么狂?还好只是 top3 ,你要是 top2 ,那岂不是你现在导师都入不了你的眼了。
@shum02 #7 你自己想的很明白了,还要别人给你出歪点子让你动摇?看你性格,想来别人的建议你也是不会接受的。二十啷当岁,就是试错的时候,没必要瞻前顾后,该怎么样,会怎么样,命中自有定数的。
活在自我臆想里的堂吉柯德。
我选 amd ,内存带宽都有。只是没钱买,有钱也买不到。
上了年纪就是这样,有怀旧情结了。谷歌地球最早可以到 2002 年的长沙,可能是湖南省最早的了。地级市大概在 2013 ~ 2014 最早。
@diudiuu #8 太 tm 悲催了,我因为用错了电源线,把 amd mi50 的 hbm2 显存给烧了。以后坚决不买这种小众的东西了,电源线都找不到。还得是一分钱一分货。内存差价这种钱,果然还是赚不得。
@KaiWuBOSS #23 甚至是异构模型,也是可以的,只是中间要搞转换。转换的这个事情,可能更简单一点。
1  2  3  4  5  6  7  8  9  10 ... 58  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2896 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 77ms · UTC 15:16 · PVG 23:16 · LAX 08:16 · JFK 11:16
♥ Do have faith in what you're doing.