V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Zhipuai
V2EX  ›  程序员

GLM-4.7 上线并开源:更强的编码

  •  
  •   Zhipuai ·
    PRO
    · 1 天前 · 5558 次点击

    GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。

    目前,GLM-4.7 已通过 BigModel.cn 提供 API ,并在 z.ai 全栈开发模式中上线 Skills 模块,支持多模态任务的统一规划与协作。

    Coding 能力再提升

    GLM-4.7 在编程、推理与智能体三个维度实现突破:

    • 更强的编程能力:显著提升了模型在多语言编码和在终端智能体中的效果; GLM-4.7 现在可以在 Claude Code 、TRAE 、Kilo Code 、Cline 和 Roo Code 等编程框架中实现“先思考、再行动”的机制,在复杂任务上有更稳定的表现。
    • 前端审美提升:GLM-4.7 在前端生成质量方面明显进步,能够生成观感更佳的网页、PPT 、海报。
    • 更强的工具调用能力:GLM-4.7 提升了工具调用能力,在 BrowseComp 网页任务评测中获得 67.5 分;在 τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA ,超过 Claude Sonnet 4.5 。
    • 推理能力提升:显著提升了数学和推理能力,在 HLE (“人类最后的考试”)基准测试中获得 42.8% 的成绩,较 GLM-4.6 提升 41%,超过 GPT-5.1 。
    • 通用能力增强:GLM-4.7 对话更简洁智能且富有人情味,写作与角色扮演更具文采与沉浸感。

    Code Arena:全球百万用户参与盲测的专业编码评估系统,GLM-4.7 位列开源第一、国产第一,超过 GPT-5.2 。

    在主流基准测试表现中,GLM-4.7 的代码能力对齐 Claude Sonnet 4.5: 在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数; 在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5 ; SWE-bench Multilingual 达到 66.7%(提升 12.9%); Terminal Bench 2.0 达到 41%(提升 16.5%)。

    真实编程场景下的体感提升

    在 Claude Code 环境中,我们对 100 个真实编程任务进行了测试,覆盖前端、后端与指令遵循等核心能力。结果显示,GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

    GLM Coding Plan

    • Claude Code 全面支持思考模式,复杂任务连续推理与执行更稳定
    • 针对编程工具里的 Skills / Subagent / Claude.md 等关键能力定向优化,工具调用成功率高、链路可靠
    • Claude Code 中视觉理解能力开箱即用;内置搜索与网页读取,信息获取到代码落地一站闭环
    • 架构设计与指令遵循更强,明显降低长上下文下的“幻觉式完成 / 跑偏”,交付质量更可控

    作为本次升级的首个体验权益,所有购买套餐的用户将获得「体验卡」礼包,可邀请 3–7 位新用户免费体验 7 天套餐权益。

    领取链接:[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

    89 条回复    2025-12-24 19:02:13 +08:00
    mogutouer
        1
    mogutouer  
       1 天前   ❤️ 2
    说个想法,程序员是用来工作的,投入到实际产出中的,要保证质量和省去来回拉扯的时间,要减少隐形 bug ,减少测试的时间,一定是用效果最好能力最强的,除非你能超过 opus ,否则没必要试用,现在有更好的不用为什么要用一个各方面都更差的呢?
    twofox
        2
    twofox  
       1 天前
    在 Claude code 中的体验确实好了不少。希望后期不要降智太厉害。
    Felixchen1062
        3
    Felixchen1062  
       1 天前   ❤️ 4
    @mogutouer 你说的确实有道理 二选一不要钱我肯定也选 Opus, 但合规性,数据安全,企业采购成本(这个不好说),对方服务企业意愿(anthropic 不向中国开放服务) 那其他的模型以及 AIIDE 就有存在的意义了
    sunny352787
        4
    sunny352787  
       1 天前
    claude code 中有一定提升,tools call 错误率低了,过度设计的问题有一定抑制,再试试看
    twofox
        5
    twofox  
       1 天前
    @mogutouer 要不是 cursor 额度用完了,我也不想用其他的。
    mogutouer
        6
    mogutouer  
       1 天前   ❤️ 1
    @Felixchen1062 #3
    @twofox #5

    我觉得一个能让你一周的工作一两天就干完的工具,并且还能完成你不熟悉的技术栈,省下大把的页面设计实现的工作,这种工具一个月居然只要花个一千几百就能拥有,已经算很划算了。
    Felixchen1062
        7
    Felixchen1062  
       1 天前
    @mogutouer 我愿意个人买但公司不愿意让我用, 可能外企这块比较闭塞 合规性和隐私要求高一点, 我们只能用百炼平台上有的模型, 很羡慕那些可以自由采购, 自己采买哪怕付费的
    caiyuan
        8
    caiyuan  
       1 天前
    刚刚让它写一篇博客,卡了十几分钟不动。。。最后直接终端,再试了 2 次,才写出来。
    0x0x
        9
    0x0x  
       1 天前
    @mogutouer 平替总是有市场的。
    我月薪 1w ,但是我想用 AI 偷偷懒, 花 200 刀一个月体验下最强的 AI 吧。 这个是真舍不得
    twofox
        10
    twofox  
       1 天前
    @mogutouer 问题是我已经花不少钱了。200 刀还是有点太贵了
    FlashEcho
        11
    FlashEcho  
       1 天前
    那个这个榜单里,不如 gpt-5.2 high ,仅仅超过 gpt-5.2 ,也能叫“超过 GPT-5.2”吗?那按照这个算法,不考虑美元资产,很多人比巴菲特有钱

    还有在你们自己的 benchmark 图里,同类型(国产、开源等)对比就算了,都有闭源模型了,为啥不把 sota 模型放上来,不如和 gpt-3.5 对比吧,那可以实现全面吊打
    ktyang
        12
    ktyang  
       1 天前   ❤️ 15
    上当上一次就够了。。。
    lscho
        13
    lscho  
       23 小时 38 分钟前
    @mogutouer 一月就赚 5000 块钱的人呢
    yorhaha123
        14
    yorhaha123  
       23 小时 35 分钟前
    @FlashEcho 只能说国内都是这么干的……谁家发的 benchmark 谁就当老大
    kylesean
        15
    kylesean  
       22 小时 28 分钟前
    刚出来的 minimax 2.1 不一起比?
    nicoljiang
        16
    nicoljiang  
    PRO
       21 小时 53 分钟前
    @0x0x 有没有可能这 200 刀的价格不适合用来偷偷懒的,更适合用来快速缩短与 10+年资深程序员、资深架构师的差距,从而让你有机会涨到 1.5w-2w 月薪的?
    sagnitude
        17
    sagnitude  
       21 小时 43 分钟前
    GLM 回答里面喜欢写代码的爱好还没改,我问 4.7 几个模块设计问题,上来甩出一堆 class 定义,一个回答直接把我控制台的历史全都清空了,sonnet 和 opus 都会尽量把回答控制在一屏幕以内,很少出现需要上下翻的情况
    beiyu
        18
    beiyu  
       21 小时 37 分钟前   ❤️ 2
    建议不要充值 GLM Coding 高价套餐,因为充值后将无法退款;而且这个模型很鸡肋,用量给的是足,但是写的代码都是垃圾,官宣是拳打 Claude Opus4.5 ,脚踢 GPT-5.2 ,实际上效果用过的人才知道什么是“上当受骗”
    0x0x
        19
    0x0x  
       20 小时 50 分钟前
    @nicoljiang 如此上进,当然这 200 刀很值得, 我想表达的第一句话的意思, 平替始终是有市场的。 大家都知道能用最好的肯定用最好的这个道理。
    mooyo
        20
    mooyo  
       20 小时 46 分钟前
    看起来不如 5 块钱一个月的 codex gpt team 拼车
    isquare
        21
    isquare  
       20 小时 45 分钟前   ❤️ 2
    上面评论看下来,感觉 zhipu 在 v2 做推广算是白花钱了 。。 毕竟这里是真的程序员在用哈哈,小红书、b 站可能投流更管用,能吸引很多学生
    maxwel1
        22
    maxwel1  
       20 小时 11 分钟前
    去 B 站那里做广告吧,那里小学生多一点,只看 ppt 不用在生产环境的小朋友也多。但我是真要当生产力工具。
    trio
        23
    trio  
       19 小时 43 分钟前   ❤️ 1
    都用 AI 了,就用一线的;我不会再给任何非一线产品试用机会。我的时间更宝贵。
    catwalk
        24
    catwalk  
       18 小时 53 分钟前
    @ktyang 我更惨,内外都试过,内的都被坑过,还是只能用主流一线的,其他都是坑钱的
    jqtmviyu
        25
    jqtmviyu  
       18 小时 49 分钟前
    有请 4.6 上当惨遭降智的网友发言.
    catwalk
        26
    catwalk  
       18 小时 37 分钟前
    @jqtmviyu 4.5 后阶段已经开始了,一次不忠百次不用
    silencefly
        27
    silencefly  
       16 小时 57 分钟前 via iPhone
    因为不好用而用不了的东西是最贵的
    maolon
        28
    maolon  
       16 小时 39 分钟前
    先不说别的了,你们在 V2 的 AMA 一言不发搞了个寂寞?你们之前说的抽奖抽了吗?结果是什么?
    就纯搞宣发把 v 友当傻子耍?
    wwhc
        29
    wwhc  
       12 小时 43 分钟前
    支持楼主,请继续加油开源更多的 AI 模型。对了,有 GLM 4.7 air 么?非常可惜的是至今并没有一个能抗衡 gpt-oss-120b 的开源模型在同一尺寸上。
    xiangran0028
        30
    xiangran0028  
       12 小时 28 分钟前
    被上面的 diss 了这么久一言不发?那就是实锤了呗
    iorilu
        31
    iorilu  
       11 小时 5 分钟前
    要上市了拼命推广阿
    quanjw
        32
    quanjw  
       10 小时 57 分钟前
    降智垃圾玩意 还没退款渠道 终生拉黑
    MIUIOS
        33
    MIUIOS  
       10 小时 47 分钟前
    这次不会在上当了,哈哈哈😅
    MIUIOS
        34
    MIUIOS  
       10 小时 46 分钟前
    少搞一点营销多整一点算力吧,求你们了 务实点
    jokcylou
        35
    jokcylou  
       10 小时 35 分钟前 via Android
    @mogutouer 照你这么说除了 opus4.5 别的模型都没必要存在了?
    jokcylou
        36
    jokcylou  
       10 小时 33 分钟前 via Android   ❤️ 2
    很搞笑的是 reddit 上一片叫好,又便宜,效果也不错,还开源,到这里就是不如 opus 就别拿出来了,太典了
    MIUIOS
        37
    MIUIOS  
       10 小时 22 分钟前
    @jokcylou #36 你买 codeplan 吗 没有就没有发言权,你买一个再说,每次他们新发模型的时候 TTFT 和 TPS 贼高,过几天就低下来了,高峰期卡壳降智是日常。
    MIUIOS
        38
    MIUIOS  
       10 小时 21 分钟前   ❤️ 2
    @jokcylou #36 我是实打实的支持国产模型,结果被人背后来了一刀,吐槽下还要被戴帽子😅
    herbloo
        39
    herbloo  
       10 小时 16 分钟前
    打个小广告,可以用小绵羊 AI 同时向多个 AI 提问,从而对比各个 AI 的回答结果是否可靠,小绵羊 AI 也是支持 z.ai 的。
    https://github.com/HerbLuo/xmy-ai
    cherryas
        40
    cherryas  
       10 小时 15 分钟前
    看到 v2 这么多骂的就知道稳了。
    这次真的是可用级别的了
    昨天刚发布的 4.7 !!!
    看评论以为都被坑很久了!!
    别拿 glm4.6 来杠不是一个东西
    cherryas
        41
    cherryas  
       10 小时 14 分钟前
    冲个 codeing plan pro 支持一下
    zx1w1w
        42
    zx1w1w  
       9 小时 52 分钟前
    已经买了 lite 版本,现金支持
    zx1w1w
        43
    zx1w1w  
       9 小时 50 分钟前
    @mogutouer 央国企不能调用海外的 API ,我调个鸡毛的 opus
    dufu1991
        44
    dufu1991  
       9 小时 40 分钟前   ❤️ 1
    上次就被骗了一个季度的钱,这次不要再给我软文了。
    elevioux
        45
    elevioux  
       9 小时 37 分钟前
    相较于各家公司尝试去创造最强 AI ,做最强程序员

    其实更应该做一个“不那么强,但是相当可靠”的程序员

    目前的 AI 一直给我一种,懂得很多,但实际写代码却丢三落四,没有整体规划的感觉
    iorilu
        46
    iorilu  
       9 小时 15 分钟前
    @elevioux 对 Ai 来说, 可靠性恰恰是最难得

    因为 AI 核心还是概率

    既然是概率, 就可能失败, 哪怕最简单的事情
    sharpy
        47
    sharpy  
       9 小时 2 分钟前
    还可以,以前我只用来读读代码,现在还真可以帮我写一写
    FakerLeung
        48
    FakerLeung  
       8 小时 56 分钟前
    @Felixchen1062 #7 那也不错了,我们不是外企,还只能用什么 Qwen2.5 7b ,qwen3-30b
    piksou
        49
    piksou  
       8 小时 46 分钟前
    lite 版本,卡死几分钟了
    M1234
        50
    M1234  
       8 小时 41 分钟前
    注册了了想在 idea 中 配置 AI assistant 插件试试,结果死活配置不成功。deepseek 倒是直接配置上了。😂
    jokcylou
        51
    jokcylou  
       8 小时 37 分钟前 via Android
    @MIUIOS 随便翻翻 reddit 一堆 claude gemini 降智的帖子,这种东西一方面个人体感很难评一方面也是普遍现象,至于算力问题那就懂得都懂了,侧面也说明用的人多了
    MIUIOS
        52
    MIUIOS  
       8 小时 32 分钟前
    @jokcylou #51 意思就是说我不能吐槽是吧?😅
    nananqujava
        53
    nananqujava  
       8 小时 31 分钟前
    上当了一个季度
    jokcylou
        54
    jokcylou  
       8 小时 27 分钟前 via Android
    @MIUIOS 能啊。但一句比 opus 差就别端上来了你不觉得有点极端了么?这世界上有在编程上能稳定比 opus 好的么?如果你只是一句你觉得 opus 更好,咱们也不会有这个对话
    MIUIOS
        55
    MIUIOS  
       8 小时 26 分钟前
    @jokcylou #54 你看清楚那是我的发言?
    MIUIOS
        56
    MIUIOS  
       8 小时 25 分钟前
    @jokcylou #54 哥们你有点搞笑了🤣
    MIUIOS
        57
    MIUIOS  
       8 小时 23 分钟前   ❤️ 1
    @jokcylou #54 我有说过《比 opus 差就别端上来了》这句话? 我一直在说降智,卡顿的问题, 我是花了钱的啊哥们,要不你截图你的 codingplan 计划给我看下,你用过了吗,你要是自己都没用过你就替我们发言,你这不是啥流氓吗
    jokcylou
        58
    jokcylou  
       8 小时 15 分钟前 via Android
    @MIUIOS 不是哥们,我还以为你是我回复那个人(一楼),你这么积极辩驳没注意名字。另外 coding plan 我是没买,但我 API 用了很久而且买过几次他们的 token 包,一共花了百来块有了,如果你觉得我没有资格评价那就没啥好说的。
    nomisk
        59
    nomisk  
       8 小时 13 分钟前
    @mooyo 怎么拼,求指路
    prophetww
        60
    prophetww  
       8 小时 10 分钟前
    本来是准备使用 4.6 平替,但是问题在于他考虑的不周全,一个问题期望他一次就搞定,4.6 就是要反复,不停的修改,对人是种消耗。 买了 4.6 季度的,后面几乎不用了.
    现在的趋势是,复杂的项目上的问题,需要的是大模型考虑周全,最好 1 到 2 次就解决. 这个 gpt 的 codex 是做到了。
    如果 4.7 可以做到,复杂问题,1 到 2 次就可以解决,也算是大进步,也算是未来可期
    0n2ynu
        61
    0n2ynu  
       7 小时 42 分钟前
    4.6 这个玩意,我让他帮我查查为什么我 raid0 的 zfs 挂不上,这 b 看半天后直接给我重做了。。。我让你重做了么??害丢了我整个分区的数据
    shine1996
        62
    shine1996  
       7 小时 35 分钟前
    为什么用你们家的送的资源包,能把我余额扣成负数?
    YLGG
        63
    YLGG  
       7 小时 34 分钟前
    已经用上了 偶尔用用还行吧。
    Felldeadbird
        64
    Felldeadbird  
       7 小时 30 分钟前
    我 AI 库里面,GLM 属于应急水平。我现在全力用 Gemini3 中。我只能说,智谱加油吧。
    byteLoading
        65
    byteLoading  
       7 小时 29 分钟前
    还是要看性价比的吧,如果足够便宜,可以买一个做一些简单任务,节省高级模型的额度,比如你只想调用一个 mcp 工具去做一些相对简单的任务,就可以用一些性价比高的模型。但是这样的话 200 元的额外投入属实有点贵了,所以我主力还是 claude ,再买了 49 的 minmax code plan 来做补充
    LaTero
        66
    LaTero  
       5 小时 56 分钟前 via Android
    @jokcylou 因为降智问题很可能受时区影响
    maoqiucute
        67
    maoqiucute  
       5 小时 16 分钟前   ❤️ 1
    我再也不会相信任何国产编程模型,今天超越这个了明天超越那个了,实际一用就是一坨

    狼来了我只能说
    shunia
        68
    shunia  
       5 小时 11 分钟前
    @Felldeadbird #64 全力用 Gemini3 的话,如果是用它来编码,那你可能也需要加加油。。。毕竟全网公认三大家里最垃圾的编程模型。
    shunia
        69
    shunia  
       5 小时 7 分钟前
    @jokcylou #36 reddit 上叫好也是有前提的,一部分人不拿 4.6 来编码,一部分人考虑到性价比,还有一些是配合特定的工具比如 kilo 体验会好一些等等。降智、乱改等问题一直有人在 sub 里提到,并非有多优秀。

    我长期关注多个 AI 工具/模型的 sub reddit ,目前只有 gpt-5.2-high+codex 和 opus-4.5+claude code 是公认体验较好的。
    kumiko
        70
    kumiko  
       4 小时 44 分钟前
    https://zhipuaishengchan.datasink.sensorsdata.cn/t/Qd
    你家的优惠活动链接为啥打不开,到底有没有赚钱的诚心啊
    lanyi96
        71
    lanyi96  
       4 小时 41 分钟前
    今天有个简单的需求测试了一下国内的各个大模型编程能力,https://mp.weixin.qq.com/s/BpnipZmak5PBREfx53B88g
    bbao
        72
    bbao  
       4 小时 37 分钟前
    上线好 3 天,随后该什么样还是什么样。
    fcten
        73
    fcten  
       4 小时 32 分钟前
    真的有点好奇,楼里这么多用闭源模型的,是公司一点数据安全的要求都没吗?或者是独立开发者?
    YanSeven
        74
    YanSeven  
       4 小时 23 分钟前
    @fcten 但是我更好奇的是,“开源模型”真能”用“吗?除非 BAT 这些头部公司,中小公司内部自部署的模型够得上生产吗。
    tracebundy
        75
    tracebundy  
       4 小时 22 分钟前
    代码能力不是很好,主要是量大管饱,拿来做项目调研挺好
    anan1314git
        76
    anan1314git  
       4 小时 6 分钟前
    拿来做理解项目源码的活, 还是挺好用的.
    Zhipuai
        77
    Zhipuai  
    OP
    PRO
       4 小时 4 分钟前
    @kumiko 您好,换个浏览器试一试,Chrome 测试可以正常打开的。如果实在不行,用这个: https://bigmodel.cn/glm-coding
    Saigut
        78
    Saigut  
       3 小时 39 分钟前
    在 4.7 的帖子下对着 4.6 狂喷,然后得出结论 4.7 垃圾,这是什么脑回路
    illiteracy0001
        79
    illiteracy0001  
       3 小时 37 分钟前
    GLM-4.7 位列开源第一、国产第一,超过 GPT-5.2 。看这个描述中的好几个第一,上次信邪在 kimi 充了 50 块钱,到现在也没用完
    stinkytofux
        80
    stinkytofux  
       3 小时 12 分钟前
    @Zhipuai #77 能不能退钱啊? 4.7 慢成狗屎了, 上午用着还行, 现在一个小时都解决不了一个问题, 执行中还自己断了无响应, 再好的耐心都磨没了. 还有你们官网那个在线客服如果连接不上的话, 可以删掉入口, 干嘛恶心用户.
    jokcylou
        81
    jokcylou  
       3 小时 1 分钟前 via Android
    @LaTero 这多少有点阴谋论了
    jokcylou
        82
    jokcylou  
       2 小时 58 分钟前 via Android
    @shunia 本来也是有前提的,价格开源就是,如果没有限制我肯定也首选 opus ,谁都会这么选,但现实就是有限制。对我来说价格便宜 5 倍能达到 70-80 的效果我是能接受的,毕竟即便 opus 写的代码我大概率也会做一些修改
    Altschmerz
        83
    Altschmerz  
       2 小时 46 分钟前
    glm4.6 非常垃圾,给它一个文档去读出其中参数,它给出的回答里疯狂添加文档里没有的参数。我自己一步步让它修改成想要的参数了,然后让它重新读一下,又变成原来错误的参数了,气的我只能骂这个模型了。
    Alias4ck
        84
    Alias4ck  
       2 小时 25 分钟前
    太爱写代码了
    就是吹的天花乱坠,模型能力也不行
    KingFong
        85
    KingFong  
    PRO
       2 小时 16 分钟前
    KIMI 那次真的有点被诈骗的感觉。
    LaTero
        86
    LaTero  
       1 小时 3 分钟前 via Android
    @jokcylou 这有什么阴谋论,载荷大才会降智啊,载荷和工作时间有关,假如主要是中国人在用,那其他时区的就不容易被降智。
    LaTero
        87
    LaTero  
       53 分钟前
    @jokcylou 对了,我看你上面回复你用的是 API ?按量付费的 API 一般不会降智,降智主要是固定费率的订阅制,比如楼里给差评的人用的 coding plan 。
    ClaudeCode
        88
    ClaudeCode  
       13 分钟前
    前段时间在 L 站看到智谱小编发表类似于正在通宵赶进度上线 GLM-4.7 的言论。
    好感度降到冰点, 哈哈哈哈
    dcatfly
        89
    dcatfly  
       几秒前
    下午想测试下 glm4.7 ,开通了实名认证,平台送了 500w 的 tokens ,但竟然是 glm4.6 的
    自己充了 5 块钱做测试,下午 3 点多的时候,在 claude code 中使用 速度慢的没法用,一个 py 脚本写了 20 分钟还没写完。。。同一时间 m2.1 速度倒是正常的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3149 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 11:02 · PVG 19:02 · LAX 03:02 · JFK 06:02
    ♥ Do have faith in what you're doing.