V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  slowgen  ›  全部回复第 1 页 / 共 28 页
回复总数  557
1  2  3  4  5  6  7  8  9  10 ... 28  
@mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。
这个测试也太不严谨了。

开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。

甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。

我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。
16 天前
回复了 superkkk 创建的主题 人工智能 minimax M2.7 权重文件开源了
@superkkk 跑原精度的不现实啊,nvfp4 量化后的基准和原精度差距不到 1%,nvfp4 还可以用上新的架构优势,prefill 速度大幅度提高,而且可以开的 KV Cache 也大得多,可以容纳更多的用户使用。

单用户上下文 3k 也不现实,龙虾一个初始会话都是 12k 左右起步。我现在基于闲置算力开了个小规模用的 API ,看平时的统计,基本上 10k 上下文涨到 100k 也就 40 个请求左右。如果过一段时间用户不请求了可能 KV Cache 就释放掉了,然后用户再请求过来的时候又要从头开始 prefill 了,也会有影响的。
16 天前
回复了 superkkk 创建的主题 人工智能 minimax M2.7 权重文件开源了
8 卡 H20 跑 MiniMax 撑死满足 80 个用户并发使用,而且有一个 10w 级别的上下文 prefill 阶段就很慢了,拖死其他用户,我的服务器就是 8 卡 H20 。

你要租的话可以先从 2 张 RTX Pro 6000 开始,2 张就可以跑 MiniMax M2.7 的 nvfp4 量化了,10w 级别的上下文无 KV Cache 下 prefill 要 40 秒左右,你可以算算能服务多少个用户。
看你自己技术品味。

喜欢 Java 系:用 Nest.js 。印象中 Nest.js 是 Node 中第一个出现的纯 TypeScript 的后端框架,在早期可以用它得到比较好的类型提示的收益,现在收益不大,而且 TypeScript 和 Java 在运行阶段有本质的不同,Nest.js 属于过度设计了,很多操作脱裤子放屁。所以我后面把 Nest.js 的项目都迁移到 Hono 了,顺便迁移到 Deno 减少了很多依赖。

喜欢 Laravel/Ruby On Rails:用 AdonisJS 。它前几个版本一直没有拥抱 TypeScript ,现在的版本拥抱了。

想要部署在 edge 得到弹性伸缩和打不死:选 Hono 。可以跑在 Cloudflare Worker 上,Cloudflare 不死你就不死,连服务器都不用维护,减少了非常多的攻击面。

想要服务端渲染做 SEO:选 Deno 的 Fresh 。讲真 Node 从 v16 到现在的更新一点都不吸引人,大家都是套 V8 ,Deno 在生产可靠性比 Bun 好,API 比 Node 友好,非常适合做减法,哪怕是纯后端我现在也都是用 Deno 跑…哦不对,我新开的项目都去用 Go 了,逃(
3 月 27 日
回复了 lw10645 创建的主题 骑行 山地车 or 公路车?
@mewking 对,轮子和缝隙是平行,轮胎宽度不够骑上去就容易打滑。除了高低缝隙,井盖也是危险项,突起的边缘和那种川字型铺设在骑行道前进方向的排水井盖,公路车的轮子卡进去的概率也很高。
3 月 25 日
回复了 eviladan0s 创建的主题 信息安全 Apifox 遭受供应链攻击
乐,建议结合 https://v2ex.com/t/1159283 一起看
3 月 25 日
回复了 lw10645 创建的主题 骑行 山地车 or 公路车?
要么山地车,要么瓜车。

1500 价位:
坎普( CAMP ) GX300 近期低价在 1600 元左右,可以在什么值得买上面看下攻略;
佳沃 JAVA ALBA ,1599 元


“不会有太烂的路”是个迷惑项,绿道的凸起形成高低缝、砖头铺的路裂开有高低砖都可能让公路车摔一下,过节放烟花捆烟花的那个铁丝随便丢在水道也可能扎爆公路车的胎。

我去年骑了 7000+公里,单次骑 30km 、50km 、80km 的河边水道线路,用山地车骑的有 5000+公里从没出过事,但是骑迪卡侬 Riverside 900 这个 38C 胎的都被高低缝摔过 2 次、绿道滑过 2 次。
3 月 25 日
回复了 xitler 创建的主题 程序员 [纯吐槽]没想到 minimax 会这么难用
官方算力不够所以可能降智了,说不定 together.aifireworks.ai 这种自己部署的会好一点,毕竟海外不缺算力。
我是自建的,用了 4 张 H20 跑 MiniMax M2.5 的 FP8 量化,挺好用的,无限 token 给了我很大想象力。再低成本一点可以 2 张 RTX Pro 6000 跑 NVFP4 ,或者等 M5 Ultra 出来,不要买 M5 之前的版本因为 prefill 慢。
简介和黄金三章都毫无吸引力,在第 200 字还没一个吸引人的点,接下来的章节很难看下去
任何正经项目都可以被拿去魔改,这个避免不了,New API 只是因为 LLM 热度太高撞枪口上了。
我自己就在部署 New API ,用来聚合自己在服务器上部署的不同的 vLLM / SGLang 还是很方便的。
@mewking code 的能力差不多(仅针对我的 Go 和 TypeScript 需求),agent 的话 Qwen3-Coder-Next 差一点。
最近在搞创意类的东西,Step-3.5-Flash 的创意非常差,MiniMax M2.5 好很多。

现在的模型根本测不完……今天凌晨 Qwen3.5 中等型号发布,Qwen3.5-35B-A3B 直接打上一代 235B ,4bit 量化还几乎无损,太夸张了……去年还有很多项目是基于 235B 跑的,现在成本直接暴降了,等年底这个尺寸的模型不知道又能暴打什么了。

试想一下今年年初的 Qwen3.5-397B-A17B 水平的模型明年被 35B 尺寸的模型打,还被刻到本贴的芯片里,直接上万 token/s 输出的话,都不敢想能拿来做什么。
煎东西粘锅肯定是温度不够,温度不够的原因大概率是因为没吸干肉表面的水分,有水进去温度就不够容易粘,而且也不容易发生美拉德反应(毕竟水温上限也就 100 度)。
或者你参考冷煎法: https://www.bilibili.com/video/BV1jUmbBFEhZ 反向利用粘的特性,煎好的那一面自己会脱落,然后就可以翻面了,非常简单。
我以前也是用不粘锅,后面看了铁锅不沾的原理之后就都是用铁锅了,所谓的养锅都是物理化学没学好也不知道底层原理所以口口相传搞出来的,压根不需要养,大胆用洗洁精就完事了。https://www.bilibili.com/video/BV1yhpjeKETT/
这才第一款,刻了个老得不行的 LLama3.1 8B ,要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了(对话模式下写 Go 的准确性很高)。

如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型,甚至 196B 的 Step-3.5-Flash ,整机定价低于 3 万都算白菜价了(对比苹果官翻的 M2 Ultra 192GB )。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。
1 月 29 日
回复了 summerLast 创建的主题 Local LLM 30B 尺寸哪个小模型编码能力会好一些
GLM-4.7-Flash
1 月 21 日
回复了 yifangtongxing28 创建的主题 Local LLM 个人玩 ai,显卡最低起步是 5080 嘛?
@yifangtongxing28 大显存 + 凑多张,比如 4 张 4090 魔改的 48G ,或者 4 张 5090 32G ,或者 RTX PRO 6000 96G 。
算力差不多就够用了,举个例子,5 秒总帧数 81 帧的 480x480 视频,在 M2 Ultra 要 1 小时,一张 2080ti 22g 要 120 秒,一张 7900XTX 也是 120 秒左右,一张 5090 就只需 20 多秒,一张 H20 也是 20 多秒。
但是如果你要做 1080x720 分辨率的视频,差距就更大了,因为一张卡的显存可能会爆,比如你用 LTX2 这个能同时生成声音的模型,一张卡也不够用了,除非用社区的量化方案。不同量化程度的方案出来的画质也不一样,需要自己去评估的。
我现在做短剧,一人用一张 H20 ,做 5 秒的精细镜头,单张显卡的显存占用就来到了 70G 。
1 月 21 日
回复了 yifangtongxing28 创建的主题 Local LLM 个人玩 ai,显卡最低起步是 5080 嘛?
16g 在 AI 眼里是电子垃圾,你这个价格买两张 2080ti 22g 或者 7900xtx 24g 都更好,能退就退了。不信邪的话去 autodl 租个 4090 或者 5090 跑 comfyui 生成 720p 规格,一秒 15 帧,持续 5 秒的视频,看 nvidia-smi 显存占用。

目前买 API 便宜的只针对 LLM 和图片类,要是玩视频那是贵上天的,重度使用要么租卡要么自己买卡。
1 月 15 日
回复了 after1990s 创建的主题 Local LLM intel b60 48G 可以买吗
这个售价飘了,不如 2 张 AMD 的 7900XTX
A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢
1  2  3  4  5  6  7  8  9  10 ... 28  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   991 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 19:27 · PVG 03:27 · LAX 12:27 · JFK 15:27
♥ Do have faith in what you're doing.