V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  coefu  ›  全部回复第 1 页 / 共 60 页
回复总数  1193
1  2  3  4  5  6  7  8  9  10 ... 60  
1 小时 42 分钟前
回复了 hotoh521 创建的主题 程序员 游戏行业最好的 AI 编程大模型
@yu6564172 你这个也有搞头,但是 命题太大了,比 OP 的这个盘子还大。你搞钱招人都不一定搞得定。
1 小时 45 分钟前
回复了 hotoh521 创建的主题 程序员 游戏行业最好的 AI 编程大模型
你这个有搞头的,可以搞钱做大,目前好像没看到这种集成方案,毕竟有点领域交叉。
当然是花钱买厂商 api ,厂商怎么计算 token 消耗量,还不是它们说了算,至于为什么要消耗那么多?不多空转几个逻辑让你充值,你以为厂商搞慈善啊,数据中心怎么回本?

什么,你说数据安全?你搞的那些项目有什么现实实际意义吗?厂商还嫌你上传的数据可能污染它们的训练数据呢,还讲什么数据安全,每天能用厂商 api vibe coding 的项目,保守点 90% 的 application ,你自己会掏钱用吗?
3 小时 15 分钟前
回复了 davidyin 创建的主题 Local LLM 配置 kiro 的问题
我记得你之前 3 月份不是问过一样的问题吗? 3 个月了还没搞定?我都和你说了 Cline+vscode ,Cline 填 ollama 都 openAI api 就行了。哥们儿,有点儿菜了啊。

问 ChatGPT 也就是 1 分钟到事情。
3 小时 21 分钟前
回复了 wcwcxiaobin 创建的主题 程序员 工控狗对 AI 的迷茫
你 Linux 能熟悉到在脑海里抽象理解整个微内核了吗?不要执着于 Windows ,在 Windows 下学习 cs 的知识,就是带着镣铐学跳舞,整个.net ,包括和 Windows 搭噶的一切,都是最表层的东西。

嵌入式,NPU ,FPGA ,忆阻器......这些都是当前最有搞头的领域。怎么就会是到头了呢?

光 FPGA 都能让你搞 10 年 20 年。
3 小时 28 分钟前
回复了 wcwcxiaobin 创建的主题 程序员 工控狗对 AI 的迷茫
”工作到大概三年前的时候,感觉电气行业学到头了“

现在集成电路板都大涨了,供不应求。

3 年就敢说摸透了行业?只能说你见的还是太少了,有点儿坐井观天,老弟。我入江湖都快 20 年了,也不敢说我摸透了 cs 领域,每天都有新论文出现,看都看不过来。

LLM 再牛逼也长不出两只手去焊电容,把自己擅长的领域多广而深的耕耘一下。微电子这块,当前是最好的时代。
@diudiuu 没懂你在说什么,ultra 的机型下,我用 llama.cpp 都能把 模型全部层加载进 apple metal gpu ,cpu 都没有加载任何层。

我彻底没用 omlx ,它限制了 context 长度,我用 llama.cpp 跑 263k context 能一直跑。只是 llama.cpp 对于 混合 attention 的支持目前有问题。不过大概率要几个月才能 fix 这个问题,或者根本无解,跑的满点罢了。
1 天前
回复了 zs1607212422 创建的主题 MacBook Pro MAC 购买建议(求支招)
mac 系列,现在只考虑 ultra 。
很有诚意。我要是年轻 10 岁,就去北京闯一闯了。
@sjmcefc2

推理第一要素,gmem/umem 的带宽,越大越好。
第二要素才是算力本身,prefill 阶段,context 太长,Nvidia 的 cuda 擅长的地方。

mac 系列只有 ultra 的带宽>= 800GB/s ,这是第一个要素。 至于 apple metal gpu 的 core 数量,讲真,再多一倍也无济于事。算力对于 mac 系列来说,聊胜于无。
mac 系列只有 ultra 能用,别的都不用试了。
确实还没恢复,我前天 build 的最新版,现在依然遇到这个 force full prompt ,难怪我每次长 context 到最后,都越来越慢,😭
4 天前
回复了 perbugwei 创建的主题 职场话题 想吃钉钉的瓜,有没有具体点儿的
有一讲一,一个办公工具,你不折腾可能还行,哪有那么多 感动自己就以为能感动别人的项目。

他可能一直没明白 微信强大的地方在于做减法,不折腾。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@kennylam777 还是 你有钱啊。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@commoccoom 如果你的经济阔绰,我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB),虽然带宽只有 1.1TB/s ,但是由于 Nvidia cuda 的极致优化,prefill 依然很能打,最主要的是 kvcache ,模型本身大概 36G ,你可以有 60G 左右跑 context ,Q8 的情况下,263k 跑满,还能开 2 parallel 。

如果你经济有限,我推荐 mac ultra ,可以是 64G ,但是 96G 或者 128G 更好。把 context 搞成 Q4 ,跑 263k 也是 ok 的。只是越往后越慢,但是依靠模型本身的能力,慢点也能完成任务。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
Diffusion 这条路,依然没有解决当前 LLM prefill 里 超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈,已经不在 token generator 。

解决 prefill 的 attention O(n²) ,依然任重道远。 主要是信息论里,对 过去 context 的压缩 是否能保证完全无损,这是当前很长时间内的根本矛盾。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@BingoXuan Gemma4 31B 擅长的是 stem 的理论逻辑。coding 确实不如 qwen3.6 27B 。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@BingoXuan
@kennylam777

qwen3.6 27B 是真正的能打,我现在日常主力了。能感觉到,这个模型之后,这个板块沉寂了很长一段时间,恐怕大家都是偷着乐的。


27B 真正能打,是因为它在 27B 这样的参数下,能搞到惊人的 64 层 dense ,模型的宽和深,有个奇妙的组合甜点位。只顾宽不顾深,就只有广博知识面,但是缺乏逻辑深度和缜密,只知道夸夸其谈,经不起推敲。只有深度,没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度,但是如果再增参数和深度,本地部署又失去了可能。巨大的参数所产生的 kvcache ,以及 agent 模式下 context 的反复进出,单卡带宽完全跟不上,就算是 gmem/umem 的容量够,attention 的 O(n²) 也是无解的。

可能是绝唱,也可能是当下开源的极限。
4 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
qwen 这次估计要落后 Gemma 团队了,Gemma 总能整出一些新活儿。😂
1  2  3  4  5  6  7  8  9  10 ... 60  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1005 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 42ms · UTC 19:16 · PVG 03:16 · LAX 12:16 · JFK 15:16
♥ Do have faith in what you're doing.