$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 slowgen 打赏,数额会 100% 进入 slowgen 的钱包。
 slowgen's recent timeline updates
slowgen

slowgen

V2EX member #83209, joined on 2014-11-23 14:34:54 +08:00
Today's activity rank 4313
Per slowgen's settings, the topics list is only visible after you sign in
Deals info, including closed deals, is not hidden
slowgen's recent replies
@mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。
这个测试也太不严谨了。

开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。

甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。

我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。
16 days ago
Replied to a topic by superkkk 人工智能 minimax M2.7 权重文件开源了
@superkkk 跑原精度的不现实啊,nvfp4 量化后的基准和原精度差距不到 1%,nvfp4 还可以用上新的架构优势,prefill 速度大幅度提高,而且可以开的 KV Cache 也大得多,可以容纳更多的用户使用。

单用户上下文 3k 也不现实,龙虾一个初始会话都是 12k 左右起步。我现在基于闲置算力开了个小规模用的 API ,看平时的统计,基本上 10k 上下文涨到 100k 也就 40 个请求左右。如果过一段时间用户不请求了可能 KV Cache 就释放掉了,然后用户再请求过来的时候又要从头开始 prefill 了,也会有影响的。
16 days ago
Replied to a topic by superkkk 人工智能 minimax M2.7 权重文件开源了
8 卡 H20 跑 MiniMax 撑死满足 80 个用户并发使用,而且有一个 10w 级别的上下文 prefill 阶段就很慢了,拖死其他用户,我的服务器就是 8 卡 H20 。

你要租的话可以先从 2 张 RTX Pro 6000 开始,2 张就可以跑 MiniMax M2.7 的 nvfp4 量化了,10w 级别的上下文无 KV Cache 下 prefill 要 40 秒左右,你可以算算能服务多少个用户。
看你自己技术品味。

喜欢 Java 系:用 Nest.js 。印象中 Nest.js 是 Node 中第一个出现的纯 TypeScript 的后端框架,在早期可以用它得到比较好的类型提示的收益,现在收益不大,而且 TypeScript 和 Java 在运行阶段有本质的不同,Nest.js 属于过度设计了,很多操作脱裤子放屁。所以我后面把 Nest.js 的项目都迁移到 Hono 了,顺便迁移到 Deno 减少了很多依赖。

喜欢 Laravel/Ruby On Rails:用 AdonisJS 。它前几个版本一直没有拥抱 TypeScript ,现在的版本拥抱了。

想要部署在 edge 得到弹性伸缩和打不死:选 Hono 。可以跑在 Cloudflare Worker 上,Cloudflare 不死你就不死,连服务器都不用维护,减少了非常多的攻击面。

想要服务端渲染做 SEO:选 Deno 的 Fresh 。讲真 Node 从 v16 到现在的更新一点都不吸引人,大家都是套 V8 ,Deno 在生产可靠性比 Bun 好,API 比 Node 友好,非常适合做减法,哪怕是纯后端我现在也都是用 Deno 跑…哦不对,我新开的项目都去用 Go 了,逃(
Mar 27
Replied to a topic by lw10645 骑行 山地车 or 公路车?
@mewking 对,轮子和缝隙是平行,轮胎宽度不够骑上去就容易打滑。除了高低缝隙,井盖也是危险项,突起的边缘和那种川字型铺设在骑行道前进方向的排水井盖,公路车的轮子卡进去的概率也很高。
Mar 25
Replied to a topic by eviladan0s 信息安全 Apifox 遭受供应链攻击
乐,建议结合 https://v2ex.com/t/1159283 一起看
Mar 25
Replied to a topic by lw10645 骑行 山地车 or 公路车?
要么山地车,要么瓜车。

1500 价位:
坎普( CAMP ) GX300 近期低价在 1600 元左右,可以在什么值得买上面看下攻略;
佳沃 JAVA ALBA ,1599 元


“不会有太烂的路”是个迷惑项,绿道的凸起形成高低缝、砖头铺的路裂开有高低砖都可能让公路车摔一下,过节放烟花捆烟花的那个铁丝随便丢在水道也可能扎爆公路车的胎。

我去年骑了 7000+公里,单次骑 30km 、50km 、80km 的河边水道线路,用山地车骑的有 5000+公里从没出过事,但是骑迪卡侬 Riverside 900 这个 38C 胎的都被高低缝摔过 2 次、绿道滑过 2 次。
Mar 25
Replied to a topic by xitler 程序员 [纯吐槽]没想到 minimax 会这么难用
官方算力不够所以可能降智了,说不定 together.aifireworks.ai 这种自己部署的会好一点,毕竟海外不缺算力。
我是自建的,用了 4 张 H20 跑 MiniMax M2.5 的 FP8 量化,挺好用的,无限 token 给了我很大想象力。再低成本一点可以 2 张 RTX Pro 6000 跑 NVFP4 ,或者等 M5 Ultra 出来,不要买 M5 之前的版本因为 prefill 慢。
简介和黄金三章都毫无吸引力,在第 200 字还没一个吸引人的点,接下来的章节很难看下去
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1121 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 18:18 · PVG 02:18 · LAX 11:18 · JFK 14:18
♥ Do have faith in what you're doing.