V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
swaylq
V2EX  ›  分享创造

我们用命理大赛真题做了个 AI benchmark,结果挺意外的

  •  
  •   swaylq · 3 月 26 日 · 737 次点击

    之前和几个同学一直在研究一个问题:大模型算八字到底什么水平?跟真正的命理师比差多远?

    为了搞清楚这个问题,我们做了个 benchmark——用全球命理师大赛的真题( 200 道四选一),同时考 AI 和人类顶级命理师,数据和代码全部开源。

    测试结果

    先说结论,四选一随机猜是 25%:

    年份 最强通用 AI 准确率 大赛冠军 大赛季军
    2025 DeepSeek-V3 37.0% 50.0% 45.0%
    2024 Gemini-3-Pro 38.5% 50.0% 45.0%
    2023 GPT-5.1 36.0% 37.5% 32.5%
    2022 DeepSeek-V3 36.0% 40.0% 35.0%

    几个有意思的发现:

    1. AI 不是瞎蒙的 —— 稳定在 36-38%,显著高于 25% 的随机基线
    2. **2023 年 GPT-5.1 (36%) 已经超过了大赛季军 (32.5%)**,跟冠军只差 1.5 个百分点
    3. 即便是人类冠军,准确率也就 37.5%-50%,八字推理确实是个极难的任务

    为什么八字对 AI 来说这么难?

    八字不是简单的查表。天干地支、十神、大运流年之间的组合关系非常复杂,需要多步推理:先看全局格局,再分析当前时间段的关键力量,最后映射到具体事件。

    通用大模型缺少这种结构化的推理链路,容易"看起来说得头头是道,但逻辑链断了"。

    结构化推理( SRP )的效果

    我们在论文里提出了一个结构化推理协议( SRP ),让 AI 按固定步骤分析:

    1. 全局扫描(五行平衡、日主强弱)
    2. 力量排序(当前时间段最关键的作用力)
    3. 事件推断(根据核心力量推断对应事件)

    用了 SRP 之后部分领域提升很明显:

    • 流年运势:+8~10 个百分点
    • 事业发展:最高 +15 个百分点
    • 学业:最高 +30 个百分点

    基于这套方法,我们做了一个产品 AuraMate 灵伴,把结构化推理引擎产品化了。在 2022 和 2023 年的数据上,灵伴的准确率已经超过了大赛季军。

    开源 & 体验


    做这个研究的初衷是觉得命理这个领域一直缺少标准化的评测方法,大家都说自己准但没有可比较的基准。希望这个 benchmark 能让这个领域更透明一些。欢迎讨论 🙏

    2 条回复    2026-03-29 09:53:28 +08:00
    codingBug
        1
    codingBug  
       3 月 26 日
    AI 毕竟不是人呐
    sunnysab
        2
    sunnysab  
       3 月 29 日
    您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

    结果如下:
    OpenAI GPT-5.4 Multi-turn 30.83%
    OpenAI GPT-5.4 Structured 31.33%
    Gemini-3.1-Pro-Preview Multi-turn 38.33%
    Gemini-3.1-Pro-Preview Structured 33.33%

    本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

    很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   936 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 20:48 · PVG 04:48 · LAX 13:48 · JFK 16:48
    ♥ Do have faith in what you're doing.