$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 sillydaddy 打赏,数额会 100% 进入 sillydaddy 的钱包。
 sillydaddy's recent timeline updates
sillydaddy
5.48D
5.18D

sillydaddy

V2EX member #472822, joined on 2020-02-27 19:30:20 +08:00
Today's activity rank 2
MOD
Has privileges to move topics
疑似有漏洞
Chamber  •  sillydaddy  •  Apr 15  •  Lastly replied by Livid
1
用人民币面额,记忆视频流量
宽带症候群  •  sillydaddy  •  Apr 14  •  Lastly replied by cnbatch
14
移动赠流量的话术骗局
北京  •  sillydaddy  •  Mar 30  •  Lastly replied by duoplustech
13
对 HodlAI 的可持续性的质疑
HodlAI  •  sillydaddy  •  Feb 3  •  Lastly replied by workbest
24
ARC-AGI 测试这帮人疯了!
  •  1   
    分享发现  •  sillydaddy  •  Jan 29  •  Lastly replied by LiuJiang
    3
    vibe coding 的最佳实践到底是什么?
    Joe's Talk 🪐  •  sillydaddy  •  Jan 23  •  Lastly replied by goodboy95
    28
    编程已死!
  •  1   
    职场话题  •  sillydaddy  •  Dec 31, 2025  •  Lastly replied by Livid
    63
    sillydaddy's recent replies
    「 51 做了个网站,女朋友调侃说做的什么垃圾有什么用,v 友们看下有用吗」: https://solodev.cool/create/51-created-a-website-and-her-girlfriend-joked-about-the-usefulness-of-what-she-d

    这个 URL 翻译的不太行,"her girlfriend"是什么鬼?
    我也是因为 vibe coding ,才知道 git 有 worktree 。
    2 days ago
    Replied to a topic by fishlium Cursor 按次的 cursor 陨落了
    为啥会没了,自动续费应该还会保持吧?
    确实是,我用 AI vibe 了下面这些,只有 1 个在用:

    1. node-based 动画制作工具。发现不适合制作复杂的动画,抛弃!几万行代码。瞎了!!!改用 MotionCanvas 以及 Manim 这些现成的工具。

    2. 简单的 gtd 时间管理工具。自己用着都感觉操作不方便。搁置中。

    3. 自媒体流水线管理工具。功能挺丰富的,看板、筛选、可视化都有,但目前还没用到,因为同时启动的自媒体项目数量,还远远到不了用流水线管理的程度。偶尔看看里面的话题素材,希望以后能用上。搁置中。

    4. v 站新帖监测工具。这个倒是在用,也挺管用的。高频使用中。

    5. LogSeq 双向链接的可视化。vibe 了一半,设计水平还是不行。搁置中。

    6. 数据备份命令行工具 PAR2 的 UI 管理界面,做完了但还没有用。搁置中。

    应该还有不少其他的。

    有时候工具太容易做,导致不假思索就去做工具,把精力放到上面,忘了原本的目标。
    @malagebidi #8 谬奖了,我修改一下之前的错误:

    这个错了: 「 Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))」
    应该是: 「 Elo 得分公式:得分 = 1 / (1 + 10^(分差/400))」

    因为 Elo 打分时有「胜」「负」「平」这 3 种。胜者得 1 分,负者得 0 分,平局各得 0.5 分。

    我没有考虑平局,所以得出 10 次比赛里面,GLM5.1 也会对 Opus4.7 有 4 次战胜的情况。其实弱者得分,主要是从平局里面得来的(也不排除从战胜中得分,但比例应该很小,特别是分差大的情况下):

    Elo 相差 10 分 得分 51.4% vs 得分 48.6%,A 胜率 2.9%,平局率 97.1%,
    Elo 相差 50 分 57.1% 42.9% A 胜率 14.3%,平局率 85.7%
    Elo 相差 100 分 64.0% 36.0% A 胜率 28.0%,平局率 72.0%
    Elo 相差 200 分 76.0% 24.0% A 胜率 52.0%,平局率 48.0%
    Elo 相差 400 分 90.9% 9.1% A 胜率 81.8%,平局率 18.2%
    Elo 相差 800 分 99.0% 1.0% A 胜率 98.0%,平局率 2.0%

    换成这种的话,GLM5.1 与 Opus4.7 差的 50 分意味着:在 20 次提问中,用户有 3 次觉得 Opus4.7 的答案比 GLM5.1 更好,其余 17 次,都很好。即 3 胜 vs 17 平。

    可能这种情况更符合真实情况。
    所以,Elo 用在围棋比赛、赛车比赛时,就是绝对实力的差距。因为 1 场比赛,赢就是赢输就是输,不分情况。但用在编程上时,因为是先给定题目,再 PK ,那题目的选择就是比赛的关键变量,出简单题目 PK 与出难题 PK ,结果会不一样,导致分数计算也不一样。

    Arena 的 PK 是类似于众包,所以,没办法控制用户向大模型提的问题是什么,难度分布是怎样的。同样 2 个模型,比如 GLM5.1 和 Opus4.7 ,都出简单题目 PK 得到的 2 者分差,肯定比都出难题 PK 时,得到的分差小。
    换句话说,如果你自己平时用的时候,问的问题的难度分布(比如 1 个超级简单的,10 个中等难度的,3 个架构设计的),与 Arena 用户在对答案投票时,问的问题难度分布(比如 2 个超级简单的,18 个中等难度的,5 个架构设计的)类似,那这个分数就很适用,分差完美反映了 2 者的实力差距。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   841 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 21:23 · PVG 05:23 · LAX 14:23 · JFK 17:23
    ♥ Do have faith in what you're doing.