coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00

coefu 提问技术话题好玩工作信息交易信息城市相关

Per coefu's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

coefu's recent replies

6 days ago

Replied to a topic by tootfsg › Local LLM › 关于 5070ti 模型推理的速度和本地部署思考

1 ，开源 70B 以下参数的 moe 逻辑能力比 dense 差太多了。

层宽和层深之间有个甜点位，不同参数量的甜点位又不同。总体来看，那几个大的 moe ，active 的 expert 层数应该都要搞到 40 ～ 60 ，在宽度上做取舍。

gemma4 E4B 有 42 层，比 qwen3.5 9B 的 32 层更深，按理来说，逻辑能力应该更好，但是受限于总参数量导致的宽度窄，表征能力不行，所以更容易在逻辑推理的起始位就跑偏，导致整个推理完全无法收敛。这点，通过中等数学的奥赛题可以验证。就算是 gemma4 E4B 横向增加 experts + router ，把总参数也堆起来，依然也无法解决问题。

2 ，dense 只需要在原始架构上达到了甜点位，横向+experts + router ，依然很能打。如果这种架构做层 plug-in 模式，更有搞头。总体来看，在 linear attention 这条路线上来看 qwen3.6 27B 已经是甜点位了。在纯 transformer 路线上来看 gemma4 31B 似乎也到了甜点位。如果可以搞一个 plug-in 架构，类似 TTT 模式，那真的就是开源福音。

8 days ago

Replied to a topic by faketemp › Local LLM › 有没有能够兼容 Win7 的离线模型工具

先在 window 7 指定的版本里搞定 docker ，然后在外面把所有依赖都封装进 docker 。

8 days ago

Replied to a topic by Ericcccccccc › 程序员 › 有了 agent 这种范式之后，语言大模型就不会算错基本的计算题了

以前都说 LLM 是推理下一个字符，所以有可能算错 10+11 这种最基本的计算题。

你说是就是？这个因果是你自己想当然定义的？先定义了一个错的 A ，反推出一个正确的 B 。

8 days ago

Replied to a topic by SilenceLL › 程序员 › 请教下，我们现在有十来年的各种文档，想要建企业知识库，该如何做

10w ,我可以弄。

10 days ago

Replied to a topic by KJH › 程序员 › Doris 增量数据刷新方案

加他们群问。

11 days ago

Replied to a topic by YanSeven › 投资 › 关于股票游戏的疑问

这就是被收割的对象啊，没他们亏，怎么有别人赚？

13 days ago

Replied to a topic by KaiWuBOSS › 程序员 › 用 72 小时系统性地否定自己的假设：从几何代数到因子注意力的踩坑记录

另外，更多的是认知灵感先验，很多人以为是数学为先，恰恰没领悟到真谛。很多真正的架构，都是灵感迸发在前面，为什么起作用，都是数学后验。

残差结构，并不是先在数学上验证有效，而是先用起来有效，后续补上的数学验证。就是灵感的迸发，搞那么个结构看看是否有效。

同样的 Hinton 2022 年的 FF 网络，也是灵感在前面，后面数学上验证。

符号主义就是喜欢在数学上精雕细琢，把梯度计算优化到极致，也不如一个新范式不再需要梯度计算就能起作用。但是后者需要的是在交叉领域里迸发的顿悟。

细节重要吗？当然，但是当下，细节可以交给 Gemini/ChatGPT 。

13 days ago

Replied to a topic by KaiWuBOSS › 程序员 › 用 72 小时系统性地否定自己的假设：从几何代数到因子注意力的踩坑记录

你之前起点的雄心壮志是值得肯定的，但是后续的方式方法又有点儿钻牛角尖了。

LLM 模型架构这块所有你目之所及，能伸手就摘到的果实，都被摘完了，这就是你钻的牛角尖。

你的目的是在推理的工程架构优化上找点突破，但是那块领域，本身就是一亩三分地，犁了又犁，锄头都快抡散架了也挖不出什么好东西。于是试图回到第一性原理的角度搞点突破，但是钻到了被犁的更烂的地。

LLM 这块，现在又回到了当年符号主义的那拨人的时代，在上面精雕细琢。在别人的范式下搞，学界是上班，工业界也是上班，做点事拿点钱嘛，不寒颤。

真正的突破是范式创新，你要是能走出反向传播，transformer 的这些显学窠臼，或许能有一番作为。上等人立志，但是也要警惕志大才疏。

14 days ago

Replied to a topic by hirasawayui › 程序员 › 1W 块 token 够让 AI 写一套用 JS 实现的股票行情模块（分时、k 线、自定义指标、通达信公式、盘口等），并且功能和交互上对标东方财富吗？

另外，东方财富这种没有什么实质生产力的，你看看它的票，每天什么交易量。先有点金融常识吧。

14 days ago

痴心妄想。

首先，数据源你就搞不到。别的都不用说了。没有资质，1000w 你也拿不到。

» More replies by coefu