GLM-4.7 上线并开源：更强的编码

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 215 days ago, the information mentioned may be changed or developed.

GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同，并在多项主流公开基准测试中取得开源模型中的领先表现。

目前，GLM-4.7 已通过 BigModel.cn 提供 API ，并在 z.ai 全栈开发模式中上线 Skills 模块，支持多模态任务的统一规划与协作。

Coding 能力再提升

GLM-4.7 在编程、推理与智能体三个维度实现突破：

更强的编程能力：显著提升了模型在多语言编码和在终端智能体中的效果； GLM-4.7 现在可以在 Claude Code 、TRAE 、Kilo Code 、Cline 和 Roo Code 等编程框架中实现“先思考、再行动”的机制，在复杂任务上有更稳定的表现。
前端审美提升：GLM-4.7 在前端生成质量方面明显进步，能够生成观感更佳的网页、PPT 、海报。
更强的工具调用能力：GLM-4.7 提升了工具调用能力，在 BrowseComp 网页任务评测中获得 67.5 分；在 τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA ，超过 Claude Sonnet 4.5 。
推理能力提升：显著提升了数学和推理能力，在 HLE （“人类最后的考试”）基准测试中获得 42.8% 的成绩，较 GLM-4.6 提升 41%，超过 GPT-5.1 。
通用能力增强：GLM-4.7 对话更简洁智能且富有人情味，写作与角色扮演更具文采与沉浸感。

Code Arena：全球百万用户参与盲测的专业编码评估系统，GLM-4.7 位列开源第一、国产第一，超过 GPT-5.2 。

在主流基准测试表现中，GLM-4.7 的代码能力对齐 Claude Sonnet 4.5：在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数；在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数，超过 Claude Sonnet 4.5 ； SWE-bench Multilingual 达到 66.7%（提升 12.9%）； Terminal Bench 2.0 达到 41%（提升 16.5%）。

真实编程场景下的体感提升

在 Claude Code 环境中，我们对 100 个真实编程任务进行了测试，覆盖前端、后端与指令遵循等核心能力。结果显示，GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

GLM Coding Plan

Claude Code 全面支持思考模式，复杂任务连续推理与执行更稳定
针对编程工具里的 Skills / Subagent / Claude.md 等关键能力定向优化，工具调用成功率高、链路可靠
Claude Code 中视觉理解能力开箱即用；内置搜索与网页读取，信息获取到代码落地一站闭环
架构设计与指令遵循更强，明显降低长上下文下的“幻觉式完成 / 跑偏”，交付质量更可控

作为本次升级的首个体验权益，所有购买套餐的用户将获得「体验卡」礼包，可邀请 3–7 位新用户免费体验 7 天套餐权益。

领取链接：[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

GLM-4.7

开源

编码

111 replies • 2026-01-15 14:05:21 +08:00

1 2

❮

❯

mogutouer

Dec 23, 2025

说个想法，程序员是用来工作的，投入到实际产出中的，要保证质量和省去来回拉扯的时间，要减少隐形 bug ，减少测试的时间，一定是用效果最好能力最强的，除非你能超过 opus ，否则没必要试用，现在有更好的不用为什么要用一个各方面都更差的呢？

twofox

Dec 23, 2025

在 Claude code 中的体验确实好了不少。希望后期不要降智太厉害。

Felixchen1062

Dec 23, 2025

@mogutouer 你说的确实有道理二选一不要钱我肯定也选 Opus, 但合规性,数据安全,企业采购成本(这个不好说),对方服务企业意愿(anthropic 不向中国开放服务) 那其他的模型以及 AIIDE 就有存在的意义了

sunny352787

Dec 23, 2025

claude code 中有一定提升，tools call 错误率低了，过度设计的问题有一定抑制，再试试看

twofox

Dec 23, 2025

@mogutouer 要不是 cursor 额度用完了，我也不想用其他的。

mogutouer

Dec 23, 2025

@Felixchen1062 #3
@twofox #5

我觉得一个能让你一周的工作一两天就干完的工具，并且还能完成你不熟悉的技术栈，省下大把的页面设计实现的工作，这种工具一个月居然只要花个一千几百就能拥有，已经算很划算了。

Felixchen1062

Dec 23, 2025

@mogutouer 我愿意个人买但公司不愿意让我用, 可能外企这块比较闭塞合规性和隐私要求高一点, 我们只能用百炼平台上有的模型, 很羡慕那些可以自由采购, 自己采买哪怕付费的

caiyuan

Dec 23, 2025

刚刚让它写一篇博客，卡了十几分钟不动。。。最后直接终端，再试了 2 次，才写出来。

0x0x

Dec 23, 2025

@mogutouer 平替总是有市场的。
我月薪 1w ，但是我想用 AI 偷偷懒，花 200 刀一个月体验下最强的 AI 吧。这个是真舍不得

twofox

Dec 23, 2025

@mogutouer 问题是我已经花不少钱了。200 刀还是有点太贵了

FlashEcho

Dec 23, 2025

那个这个榜单里，不如 gpt-5.2 high ，仅仅超过 gpt-5.2 ，也能叫“超过 GPT-5.2”吗？那按照这个算法，不考虑美元资产，很多人比巴菲特有钱

还有在你们自己的 benchmark 图里，同类型（国产、开源等）对比就算了，都有闭源模型了，为啥不把 sota 模型放上来，不如和 gpt-3.5 对比吧，那可以实现全面吊打

ktyang

Dec 23, 2025

上当上一次就够了。。。

lscho

Dec 23, 2025

@mogutouer 一月就赚 5000 块钱的人呢

yorhaha123

Dec 23, 2025

@FlashEcho 只能说国内都是这么干的……谁家发的 benchmark 谁就当老大

kylesean

Dec 23, 2025

刚出来的 minimax 2.1 不一起比？

nicoljiang

PRO

Dec 23, 2025

@0x0x 有没有可能这 200 刀的价格不适合用来偷偷懒的，更适合用来快速缩短与 10+年资深程序员、资深架构师的差距，从而让你有机会涨到 1.5w-2w 月薪的？

sagnitude

Dec 23, 2025

GLM 回答里面喜欢写代码的爱好还没改，我问 4.7 几个模块设计问题，上来甩出一堆 class 定义，一个回答直接把我控制台的历史全都清空了，sonnet 和 opus 都会尽量把回答控制在一屏幕以内，很少出现需要上下翻的情况

beiyu

Dec 23, 2025

建议不要充值 GLM Coding 高价套餐，因为充值后将无法退款；而且这个模型很鸡肋，用量给的是足，但是写的代码都是垃圾，官宣是拳打 Claude Opus4.5 ，脚踢 GPT-5.2 ，实际上效果用过的人才知道什么是“上当受骗”

。

0x0x

Dec 23, 2025

@nicoljiang 如此上进，当然这 200 刀很值得，我想表达的第一句话的意思，平替始终是有市场的。大家都知道能用最好的肯定用最好的这个道理。

mooyo

Dec 23, 2025

看起来不如 5 块钱一个月的 codex gpt team 拼车

isquare

Dec 23, 2025

上面评论看下来，感觉 zhipu 在 v2 做推广算是白花钱了

。。毕竟这里是真的程序员在用哈哈，小红书、b 站可能投流更管用，能吸引很多学生

maxwel1

Dec 23, 2025

去 B 站那里做广告吧，那里小学生多一点，只看 ppt 不用在生产环境的小朋友也多。但我是真要当生产力工具。

trio

Dec 23, 2025

都用 AI 了，就用一线的；我不会再给任何非一线产品试用机会。我的时间更宝贵。

catwalk

Dec 24, 2025

@ktyang 我更惨，内外都试过，内的都被坑过，还是只能用主流一线的，其他都是坑钱的

jqtmviyu

Dec 24, 2025

有请 4.6 上当惨遭降智的网友发言.

catwalk

Dec 24, 2025

@jqtmviyu 4.5 后阶段已经开始了，一次不忠百次不用

silencefly

Dec 24, 2025 via iPhone

因为不好用而用不了的东西是最贵的

maolon

Dec 24, 2025

先不说别的了，你们在 V2 的 AMA 一言不发搞了个寂寞？你们之前说的抽奖抽了吗？结果是什么？
就纯搞宣发把 v 友当傻子耍？

wwhc

Dec 24, 2025

支持楼主，请继续加油开源更多的 AI 模型。对了，有 GLM 4.7 air 么？非常可惜的是至今并没有一个能抗衡 gpt-oss-120b 的开源模型在同一尺寸上。

xiangran0028

Dec 24, 2025

被上面的 diss 了这么久一言不发？那就是实锤了呗

iorilu

Dec 24, 2025

要上市了拼命推广阿

quanjw

Dec 24, 2025

降智垃圾玩意还没退款渠道终生拉黑

MIUIOS

Dec 24, 2025

这次不会在上当了，哈哈哈😅

MIUIOS

Dec 24, 2025

少搞一点营销多整一点算力吧，求你们了务实点

jokcylou

Dec 24, 2025 via Android

@mogutouer 照你这么说除了 opus4.5 别的模型都没必要存在了？

jokcylou

Dec 24, 2025 via Android

很搞笑的是 reddit 上一片叫好，又便宜，效果也不错，还开源，到这里就是不如 opus 就别拿出来了，太典了

MIUIOS

Dec 24, 2025

@jokcylou #36 你买 codeplan 吗没有就没有发言权，你买一个再说，每次他们新发模型的时候 TTFT 和 TPS 贼高，过几天就低下来了，高峰期卡壳降智是日常。

MIUIOS

Dec 24, 2025

@jokcylou #36 我是实打实的支持国产模型，结果被人背后来了一刀，吐槽下还要被戴帽子😅

herbloo

Dec 24, 2025

打个小广告，可以用小绵羊 AI 同时向多个 AI 提问，从而对比各个 AI 的回答结果是否可靠，小绵羊 AI 也是支持 z.ai 的。
https://github.com/HerbLuo/xmy-ai

cherryas

Dec 24, 2025

看到 v2 这么多骂的就知道稳了。
这次真的是可用级别的了
昨天刚发布的 4.7 ！！！
看评论以为都被坑很久了！！
别拿 glm4.6 来杠不是一个东西

cherryas

Dec 24, 2025

冲个 codeing plan pro 支持一下

zx1w1w

Dec 24, 2025

已经买了 lite 版本，现金支持

zx1w1w

Dec 24, 2025

@mogutouer 央国企不能调用海外的 API ，我调个鸡毛的 opus

dufu1991

Dec 24, 2025

上次就被骗了一个季度的钱，这次不要再给我软文了。

elevioux

Dec 24, 2025

相较于各家公司尝试去创造最强 AI ，做最强程序员

其实更应该做一个“不那么强，但是相当可靠”的程序员

目前的 AI 一直给我一种，懂得很多，但实际写代码却丢三落四，没有整体规划的感觉

iorilu

Dec 24, 2025

@elevioux 对 Ai 来说, 可靠性恰恰是最难得

因为 AI 核心还是概率

既然是概率, 就可能失败, 哪怕最简单的事情

sharpy

Dec 24, 2025

还可以，以前我只用来读读代码，现在还真可以帮我写一写

FakerLeung

Dec 24, 2025

@Felixchen1062 #7 那也不错了，我们不是外企，还只能用什么 Qwen2.5 7b ，qwen3-30b

piksou

Dec 24, 2025

lite 版本，卡死几分钟了

M1234

Dec 24, 2025

注册了了想在 idea 中配置 AI assistant 插件试试，结果死活配置不成功。deepseek 倒是直接配置上了。😂

jokcylou

Dec 24, 2025 via Android

@MIUIOS 随便翻翻 reddit 一堆 claude gemini 降智的帖子，这种东西一方面个人体感很难评一方面也是普遍现象，至于算力问题那就懂得都懂了，侧面也说明用的人多了

MIUIOS

Dec 24, 2025

@jokcylou #51 意思就是说我不能吐槽是吧？😅

soleils

Dec 24, 2025

上当了一个季度

jokcylou

Dec 24, 2025 via Android

@MIUIOS 能啊。但一句比 opus 差就别端上来了你不觉得有点极端了么？这世界上有在编程上能稳定比 opus 好的么？如果你只是一句你觉得 opus 更好，咱们也不会有这个对话

MIUIOS

Dec 24, 2025

@jokcylou #54 你看清楚那是我的发言？

MIUIOS

Dec 24, 2025

@jokcylou #54 哥们你有点搞笑了🤣

MIUIOS

Dec 24, 2025

@jokcylou #54 我有说过《比 opus 差就别端上来了》这句话？我一直在说降智，卡顿的问题，我是花了钱的啊哥们，要不你截图你的 codingplan 计划给我看下，你用过了吗，你要是自己都没用过你就替我们发言，你这不是啥流氓吗

jokcylou

Dec 24, 2025 via Android

@MIUIOS 不是哥们，我还以为你是我回复那个人（一楼），你这么积极辩驳没注意名字。另外 coding plan 我是没买，但我 API 用了很久而且买过几次他们的 token 包，一共花了百来块有了，如果你觉得我没有资格评价那就没啥好说的。

nomisk

Dec 24, 2025

@mooyo 怎么拼，求指路

prophetww

Dec 24, 2025

本来是准备使用 4.6 平替，但是问题在于他考虑的不周全，一个问题期望他一次就搞定，4.6 就是要反复，不停的修改，对人是种消耗。买了 4.6 季度的，后面几乎不用了.
现在的趋势是，复杂的项目上的问题，需要的是大模型考虑周全，最好 1 到 2 次就解决. 这个 gpt 的 codex 是做到了。
如果 4.7 可以做到，复杂问题，1 到 2 次就可以解决，也算是大进步，也算是未来可期

0n2ynu

Dec 24, 2025

4.6 这个玩意，我让他帮我查查为什么我 raid0 的 zfs 挂不上，这 b 看半天后直接给我重做了。。。我让你重做了么？？害丢了我整个分区的数据

shine1996

Dec 24, 2025

为什么用你们家的送的资源包，能把我余额扣成负数？

YLGG

Dec 24, 2025

已经用上了偶尔用用还行吧。

Felldeadbird

Dec 24, 2025

我 AI 库里面，GLM 属于应急水平。我现在全力用 Gemini3 中。我只能说，智谱加油吧。

byteLoading

Dec 24, 2025

还是要看性价比的吧，如果足够便宜，可以买一个做一些简单任务，节省高级模型的额度，比如你只想调用一个 mcp 工具去做一些相对简单的任务，就可以用一些性价比高的模型。但是这样的话 200 元的额外投入属实有点贵了，所以我主力还是 claude ，再买了 49 的 minmax code plan 来做补充

LaTero

Dec 24, 2025 via Android

@jokcylou 因为降智问题很可能受时区影响

maoqiucute

Dec 24, 2025

我再也不会相信任何国产编程模型，今天超越这个了明天超越那个了，实际一用就是一坨

狼来了我只能说

shunia

Dec 24, 2025

@Felldeadbird #64 全力用 Gemini3 的话，如果是用它来编码，那你可能也需要加加油。。。毕竟全网公认三大家里最垃圾的编程模型。

shunia

Dec 24, 2025

@jokcylou #36 reddit 上叫好也是有前提的，一部分人不拿 4.6 来编码，一部分人考虑到性价比，还有一些是配合特定的工具比如 kilo 体验会好一些等等。降智、乱改等问题一直有人在 sub 里提到，并非有多优秀。

我长期关注多个 AI 工具/模型的 sub reddit ，目前只有 gpt-5.2-high+codex 和 opus-4.5+claude code 是公认体验较好的。