V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
freefly111
V2EX  ›  程序员

在编程能力方面, Gemini 和 GPT 哪个正确率更高?

  •  2
     
  •   freefly111 · 7 天前 · 4966 次点击

    最近我练算法主要使用 Gemini 和 GPT 。

    我发现有时 GPT 会提供一些有错误的代码,这时候 Gemini 也可能会给错误的代码。

    但 Gemini 强在速度比较快。

    想问问各位的意见。

    第 1 条附言  ·  6 天前
    谢谢各位的建议。
    已经开始用 Claude 3.7 Sonnet 了。
    43 条回复    2025-03-15 21:50:57 +08:00
    MarsOnly
        1
    MarsOnly  
       7 天前   ❤️ 4
    我比较喜欢 Claude 3.7 Sonnet ,其次 DeepSeek R1
    alwaysol
        2
    alwaysol  
       7 天前
    gpt 正确率更高,Gemini 就只剩快了
    disorientatefree
        3
    disorientatefree  
       7 天前
    代码问题个人感受是

    开源的东西,Claude 3.7 Sonnet 最好, Gemini / ChatGPT / Grok / DeepSeek 这几家的思考模型差不太多

    私有大项目的话,Gemini 靠 context window 大,把整个项目喂进去,稍稍有点优势,但不大
    383394544
        4
    383394544  
       7 天前   ❤️ 1
    grok3 比 chatgpt 强
    wxyrrcj
        5
    wxyrrcj  
       7 天前
    DeepSeekv3
    FlorentinoAriza
        6
    FlorentinoAriza  
       7 天前   ❤️ 1
    最近用的挺多 windsurf 配合 3.7 很 ok ,部分问题使用 gpt-o3 解决的,至于 DS 为什么还有人觉得厉害我只能说他们没付款用过。用了 trae 的 r1 给我气的半死。做积分活动修改积分方法,解决原子性问题蹦出个死锁,解决死锁蹦出个嵌套事务,然后三个无限循环来来回回改。最后不再信任上下文记忆让兼顾三个问题解决,好嘛,解决完三个问题都出来了,最后用的 o3
    FlorentinoAriza
        7
    FlorentinoAriza  
       7 天前
    @FlorentinoAriza #6 根本没在乎基础业务逻辑,就像面试,光顾着高并发等问题解决最后基础逻辑走不通,仅仅单次调用接口时间 x20 最后来个系统繁忙
    daimaosix
        8
    daimaosix  
       7 天前
    Gemini 这个鸡毛犟种,打死不用
    lihanst
        9
    lihanst  
       7 天前
    Claude 永远的神
    cnrting
        10
    cnrting  
       7 天前 via iPhone   ❤️ 1
    ge-mini 名字不都已经告诉你了么 阉割 mini 模型
    masterArcher
        11
    masterArcher  
       7 天前   ❤️ 1
    第一梯队 Claude 3.7 Sonnet 、o3 mini
    Claude 更擅长于使用语法糖 有时候容易出幻觉,o3 mini 更适合常规开发

    其次是 git commit 的适合 qwen 总结合适

    最后 Gemini 快、2M 输出一骑绝尘,正确率堪忧
    ACCI
        12
    ACCI  
       7 天前   ❤️ 1
    推荐 Claude 3.7 Sonnet
    williampan
        13
    williampan  
       7 天前
    flowith.io 怎么看
    pkoukk
        14
    pkoukk  
       7 天前
    Claude 3.7 Sonnet 速度,准确性,代码质量一骑绝尘
    imsoso
        15
    imsoso  
       7 天前
    grok3 目前推广期,免费版比较舍得出力
    xz410236056
        16
    xz410236056  
       7 天前   ❤️ 1
    编码来说 claude 断崖领先,deepseek 紧随其后,其余差不多。 人文社科领域感觉 grok 更强
    blackocean
        17
    blackocean  
       7 天前
    我只用过 o3 mini ,目前都能满足我的需求。想试下 Claude 3.7 Sonnet 。
    jdz
        18
    jdz  
       7 天前
    我试过几次 Gemini, 就是大废物
    sherlockwhite
        19
    sherlockwhite  
       7 天前
    @xz410236056 同这样感觉,现在模型里面 Coding 领域 Claude 断崖领先,不知道那些用 openai 吭哧吭哧写代码的用没用过 Claude 。grok3 在日常使用(非 coding 领域)非常好用
    HappyAndSmile
        20
    HappyAndSmile  
       7 天前
    基本所有有名的模型都使用过,写代码领域,除了 claude ,其它我都认为是垃圾,总是给我报错的代码,只有 claude 给了我直接替换运行的自信
    disorientatefree
        21
    disorientatefree  
       7 天前
    三家的收费账户, 再加上 Grok 的免费试用

    Claude >>> Gemini > ChatGPT > Grok (单说代码相关,Grok 其实挺好的)
    maxwel1
        22
    maxwel1  
       7 天前
    写代码的话,不考虑价格,其他几家在 chatgpt 面前就是智障,如果你没这种体会,就是你用的太少。
    lew1
        23
    lew1  
       7 天前
    注册 Claude 需要国外手机验证码,老哥们有什么好办法吗
    huangweipeng
        24
    huangweipeng  
       7 天前
    @lew1 https://yeka.ai/i/HWP 链接有 aff ,介意的话可去掉后三位,我是用这个虚拟卡作为 Claude 支付的(被封的话钱还会退回卡里),工具箱可免费的 3 个手机号用于验证注册,使用完 3 次后可以付费买手机号 https://imgur.com/a/0gM4M2v
    crackidz
        25
    crackidz  
       7 天前
    这两个里面选的话,GPT 会比 Gemini 好
    aiqinxuancai
        26
    aiqinxuancai  
       7 天前
    写代码的 参考这个排名
    https://aider.chat/docs/leaderboards/
    akakidz
        27
    akakidz  
       7 天前
    GPT o3 mini 体验很好
    min
        28
    min  
       7 天前
    sonnet 3.7: 看你们两个菜鸡互啄 lol
    cat9life
        29
    cat9life  
       7 天前
    你居然没提到 Claude
    wheat0r
        30
    wheat0r  
       7 天前
    Gemini 就是哄鬼的
    chesha1
        31
    chesha1  
       7 天前
    在编程方面,Gemini 2.0 Pro 全面不如 o1 和 claude 3.7 ,你可以看下 livebench 和我自己写了几个测试用例: https://echoccc.online/posts/llm-test/
    iflint
        32
    iflint  
       7 天前
    国内有方法稳定使用 Claude 3.7 吗
    unco020511
        33
    unco020511  
       7 天前
    Claude 3.7 Sonnet
    urlpha
        34
    urlpha  
       7 天前
    @iflint 直接开 cursor 订阅,结合 cursor rule 用的飞起。
    drymonfidelia
        35
    drymonfidelia  
       7 天前
    @imsoso grok3 比较适合问问题,写的代码一般般 bug 挺多
    crackidz
        36
    crackidz  
       7 天前
    @iflint trae ?
    zhibisora
        37
    zhibisora  
       7 天前
    claude 3.7 和 gpt o3-mini 最好, 其次 r1, 然后 gemini 2.0 flash
    CHEN1016
        38
    CHEN1016  
       6 天前 via iPhone
    @lew1 在用 openrouter
    383394544
        39
    383394544  
       6 天前 via iPhone
    @iflint copilot 现在可选 claude 3.7 模型
    highf4324
        40
    highf4324  
       6 天前
    @cnrting 没有读对,Gemini 的 Ge 并不发 “割”的音
    HENQIGUAI
        41
    HENQIGUAI  
       6 天前
    Claude 3.7 太贵了不怎么舍得用,重度使用 Deepseek V3, 还凑活,不过感觉好像写代码方面比 Claude 3.5 还差点意思。
    mmdsun
        42
    mmdsun  
       6 天前 via iPhone
    编程的话 Github Copilot 正确率最高,模型可以选 GPT-4o 、Claude 3.7
    ysy950803
        43
    ysy950803  
       6 天前
    如果搞 Android 开发要解决代码问题的话,用谷歌的 Gemini 其实还不错(现在 Studio 也自带了),真就是各家擅长什么,其 AI 就擅长什么,知识库的区别。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   928 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:31 · PVG 05:31 · LAX 14:31 · JFK 17:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.