V2EX › GPLer 的所有回复 › 第 1 页 / 共 23 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7 8 9 10 ... 23

❮

❯

6 小时 11 分钟前

回复了 Livid 创建的主题 › 信息安全 › 用 socket.dev 给 npm install 包一层安全防御

@jaff 有了 AI 最好的办法不应该全部 node 手搓吗，要啥功能直接搓 😆

1 天前

回复了 fancy2020 创建的主题 › Mac Studio › 现在 Mac studio 基本都买不到货了？

@workbest 新 mac studio 的发布从年中推迟到 10 月份了

1 天前

回复了 fancy2020 创建的主题 › Mac Studio › 现在 Mac studio 基本都买不到货了？

@GPLer pp 提升来自 cpu/gpu 性能提升 + tensor core ，光 tensor core 就差不多相较 m4 翻倍了，更不用说跨两代，tg (614GB/s x 2) / (400GB/s x 2) = 153.5%

1 天前

回复了 fancy2020 创建的主题 › Mac Studio › 现在 Mac studio 基本都买不到货了？

@fancy2020 包等的啊，m5 ultra 打 m3 ultra ，综合提升 50% 以上，pp 提升 100% 以上，tg 提升 25% 以上

1 天前

回复了 Moonkin 创建的主题 › 职场话题 › 我有一招可以在裁员潮的当下反击你的老板，并提高自身竞争力。

最好开源协议再选个 GPL/AGPL

6 天前

回复了 jacketma 创建的主题 › OpenAI › OpenAI 渡劫，会不会破灭了？

4 月 28 日

回复了 mode171 创建的主题 › 教育 › 本科毕业又能读大专了，全国多地鼓励进大专院校进修，你怎么看？

“专业本科起点专科学习，修完教学计划规定的全部课程，成绩合格，准许毕业“
毫无违和感

4 月 26 日

回复了 yzw7489757 创建的主题 › Cursor › 如果 Xspace 收购成功，应该叫什么

xcodespace 或 codespacex

4 月 19 日

回复了 inyfee 创建的主题 › ☕Vibe Coding🤖 › 当你一个任务跑一半触发了 5 小时限制的时候，你会怎么办？

开 1m 上下文，提示词要求任务完成之前不要暂停，额度到了不触发压缩已有任务会继续跑。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@GPLer 另外因为目前看下来还是稠密模型能力强，所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ，跑 27B 模型速度太慢没法用，苹果只是单纯力大砖飞+高性价比所以才写上去了。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 可以的
gemma4 31b 没有官方量化，我还在找合适的使用方式
qwopus 我最近在试，这个因为是非官方的我没写，确实忘了😂

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@Enivel FTS 一开始没反应过来，查了下这不就是双路召回的其中一路吗，都 2026 年了，早就标配了。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 所以你 40g 显存目前用啥模型啊

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@akadanjuan101 但是这种现在没有全新的了，容易买到矿，本身也是魔改卡，质保也是个问题，所以我说了有丐的方案但是不推荐 😂

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@Lykos 我自己有一张 3090 24g ，35b 和 27b Q4 用 Ollama 勉强能跑，但是上下文开不高，还是推荐 5090 32g 或 4090 48g ，另外 mac m5 max 64g 版本也是不错的选择，算下来整机成本大概 3w ~ 4w 左右，再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ，但是 qwen 官方量化的 q4 有问题，权重和 fp8 一样大，只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型，48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文，非代码类任务用用还行。

---

另外如果不要求长上下文的话，27b 模型 16g + gguf 极限量化应该也能跑，35b 模型内存+显存混合使用应该也能跑，不过我没试过，所以不做推荐

---

丐的方案也有，比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ，但是这些方案要么太老要么功耗太高又没质保，并且我没试过，所以就不推荐了。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@GPLer 另外目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ，如果要测试最好在这三个里选，测试下来稠密模型效果比激活参数小的 MoE 模型好很多。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 3b 模型只能日常对话，基本上没有实用价值，数据量和模型大小没有直接关系，跟上下文长度以及长文本能力有关，3b 也许长文本能力还行，但是模型能力不行也没用。
27b 风评还是不错的，如果效果一般可能是 RAG 配置问题，可以先不用 RAG ，试试都放到一个文件夹里，然后用 opencode 等 agent 平台配置模型，然后将目录所在位置告诉它，测试这种情况下的问答效果，速度会慢很多，但是大模型自己探索后应该能答对，如果这样子可以，后面可以让模型写个 skills ，将检索的技巧做成技能。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 新出的 qwen3.6-35b 再试试？

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

@archxm 你的观点是 RAG 不行，我的观点是 3B 不行，没人说一定要一开始就大投入，但你不应该因为 3B 不行就说 RAG 不行。

4 月 17 日

回复了 archxm 创建的主题 › 程序员 › RAG 难以让人满意啊

都不说 claude 、gpt 、gemini 御三家了，要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧，3b 测了跟没测有什么区别。😅

1 2 3 4 5 6 7 8 9 10 ... 23

❮

❯