$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 slowgen 打赏,数额会 100% 进入 slowgen 的钱包。
 slowgen 最近的时间轴更新
slowgen

slowgen

V2EX 第 83209 号会员,加入于 2014-11-23 14:34:54 +08:00
今日活跃度排名 7957
根据 slowgen 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
slowgen 最近回复了
3 天前
回复了 street000 创建的主题 Node.js Anthropic 收购 Bun
其实是不太利好 Deno 的一集,Deno 那个 compile 只是把代码无脑合并成一个文件(连压缩都没,注释还保留着)再嵌入 Deno 里,Bun 的 compile 虽然也是合并代码后嵌入到 Bun ,但是还可以 minify + bytecode ,比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般,但是拿来做客户端工具太爽了,不去和 Deno 、Node 在服务端领域竞争的话没对手
https://chat.qwen.ai/https://chat.z.ai/ 选择带 V 型号的模型,把脱敏或者不重要的图片丢进去问,如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ,不到 1B ,是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款,跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松,再跑一个带视觉能力的模型就可以了,2 个模型同时加载也不会爆显存,一起干活挺快的,难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑,不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽,太弱鸡了,能跑但是跑不快,速度只有 M2 Ultra 的 1/3 ,也就跑个 Qwen3-VL-30B-A3B ,如果你体验下来能满足的话,倒也不是不行。
16 天前
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
ollama 就是个废物,在 r/LocalLLaMA 都被喷了好多回了,精准控制参数贼麻烦,还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的,越来越强大了,缺点就是多个模型加载有点麻烦,要开多个命令。
在 mac 上用 llama.cpp 是最方便的,去 release 页下载编译好的文件就好了,只有 15MB ,追新模型很方便。
举个例子:我跑 gpt-oss-120b 模型,开中等级别推理,这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理,下载对应的文件解压就用

Linux 上也很方便,N 卡的话直接 cuda13 驱动一装,docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0
17 天前
回复了 crocoBaby 创建的主题 Local LLM 折腾了一晚上大模型,索然无味
5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
34 天前
回复了 zungmou 创建的主题 互联网 虎嗅网被撤销了证书
通配符证书被吊销,那大概率是和测试环境证书共用一个证书,然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里,然后被扫描到了
管理后台首选 amis ,基本上都是在改 json 文件
卖课流永不过时
53 天前
回复了 xkwdm 创建的主题 Node.js 删除 node_modules 文件夹非常耗时
可以用华硕的 RAMDisk https://dlcdnets.asus.com/pub/ASUS/mb/14Utilities/ASUS_RAMDisk_V2.03.00_for_Windows_10_64-bit.zip (有 Referer 校验,需要地址栏输入打开)
把内存分出来当硬盘,结合 WSL1 在里面使用 rm -rf 删除,超快
55 天前
回复了 YanSeven 创建的主题 浏览器 Zen 浏览器疑似内存占用有点高啊
应该是 Firefox 的锅,我最近用 Firefox 开发者版内存泄露了,开游戏经常被杀一开始还以为是游戏的问题,后面检查了内存占用才惊觉是有一个没关 Firefox 吃了六十多 G 内存,Firefox 里的页面也很正常就几个 Github 的项目
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   950 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 18:57 · PVG 02:57 · LAX 10:57 · JFK 13:57
♥ Do have faith in what you're doing.