glm5.1， kimi2.6， minimax2.7， mimo v2.5， deepseek v4，编程能力上的排名如何？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 41 days ago, the information mentioned may be changed or developed.

先抛个砖：GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6

Supplement 1 · Apr 26

以一个案例来分析这几个的能力：帮我生成一个天气查询H5应用提示词就这一句，都一样。

glm5.1： https://imgchr.com/i/pehcWCR 天气温度假

kimi2.6：https://imgchr.com/i/pehczKf 天气温度真

minimax2.7：https://imgchr.com/i/pehcBvV 拉完了

mino v2.5 ：第一遍没有给我生成，换提示词：帮我开发一个天气查询H5应用。才继续生成：https://imgchr.com/i/pehgQIJ 天气温度假。有一个背景下雨的效果

deepseek v4： https://imgchr.com/i/pehcgUJ 温度真

仅针对这个案例的评价：glm5.1，kimi2.6 可以， deepseek v4 ，mino v2.5 次之。 minimax2.7 什么玩意？

大家也可以自己测试下。

Supplement 2 · Apr 26

根据案例实测，纠正我之前的排名：glm5.7 >= kimi2.6 >= deepseek v4 > mimo v2.5
附：minimax 不配上桌。

Supplement 3 · Apr 26

换了一家图床服务

glm： https://pic1.imgdb.cn/item/69edd9636dcdaf678a8bc3fc.png

kimi2.6： https://pic1.imgdb.cn/item/69edd9556dcdaf678a8bc3f9.png

minimax2.7：
- https://pic1.imgdb.cn/item/69edda426dcdaf678a8bc4b5.png
- https://pic1.imgdb.cn/item/69edda516dcdaf678a8bc4ba.png

mimo v2.5： https://pic1.imgdb.cn/item/69edd9fb6dcdaf678a8bc460.png

deepseek v4： https://pic1.imgdb.cn/item/69edda116dcdaf678a8bc48b.png

Supplement 4 · Apr 26

接评论区的要求，增加 qwen
Qwen3.5 : https://pic1.imgdb.cn/item/69eddd196dcdaf678a8bc75c.png 和 minimax 一样，拉。
Qwen3.6-plus： https://pic1.imgdb.cn/item/69edddbc6dcdaf678a8bc7d4.png 拉
Qwen3-coder 模式： https://pic1.imgdb.cn/item/69eddeb36dcdaf678a8bc93c.png
这次的案例实测，都是用的官网的网页版，使用最新的模型测试。

其它的模型，大家感兴趣的，可以自己测试一下。

总结：国产模型第一梯队 glm ，kimi ，第二梯队：deepseek ，mimo ，第三梯队：qwen ，minimax 。

Supplement 5 · Apr 27

Claude4.6 ，4.7 ，gpt5.5 ，Gemini3.1 ，大家可以自行测试，我这里暂时只测试国产的几个编程中主流的大模型。

排名

编程

模型

93 replies • 2026-05-18 09:37:54 +08:00

canyue7897

Apr 26 via iPhone

我觉得 kimi 还可以哈？
没想到这么拉？

onedge

Apr 26

GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7

cookii

Apr 26 via Android

minimax 不配上榜好吧，夸张点说 4B 模型水平

BestEicky

Apr 26

@cookii 说是 4B 模型都抬举它了，应该是 SB 模型水平吧

uqf0663

Apr 26

kimi 我会继续订阅，但是 minimax 就算了，订阅完用了三天我就放弃了，不会再考虑使用。

onedge

Apr 26

@uqf0663 minimax 已经完全龙虾了，m2.5 刚出我还觉得能力可以的，2.7 真的废了

Chisa

Apr 26

minimax 官方订阅的极速版，智力低到没边了

huaweii

Apr 26 via Android

@ayasealter570 有没有例子看看，好奇

uqf0663

Apr 26

@onedge 我就是用这龙虾的，m2.7 真的是连应付龙虾基本运行都有坑，目前我的龙虾只有 k2.6 勉强马马虎虎能凑合用。

junwind

Apr 26

@canyue7897 实测的这个案例，kimi 还行，不过生成是很慢的

junwind

Apr 26

@canyue7897 kimi 不拉，是我个人的武断，实测后还不错

drealism

Apr 26 via Android

可以把 qwen 系列补一个进去么🤜🤛

ebushicao

Apr 26

每次有人说跑分能够说明能力，我就会举出 minimax2.7 这个例子，那真是连 skill 和 tool 都不一定会调用，某些时候我本地部署的 qwen3.5 9b 都比它强。

aes114514gcm

Apr 26

和我的体感比较接近，glm5.1 略强于 kimi2.6 ，

zenfsharp

Apr 26

GLM5.1 > deepseek v4 > 其他，起码到这里是同意的。
我刚开了 opencode 的 Go 订阅，在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ，问 GLM 我项目里的一个业务逻辑，直接一次性揪出来了，而 DS 没有，反复提示了三次才找到。

zenfsharp

Apr 26

不知道各种公众号是有任务还是怎么回事，一个劲的鼓吹 deepseek v4 ，跟实际体验严重背离。

lukaktus6768

Apr 26

看到 glm 我就要踩一脚，买谁都不要买他

anmie

Apr 26

@zenfsharp 自媒体不这么写没人看啊，但是你看 Deepseek 官方就实在多了，官方在公众号里，明确说了模型在某些方面比 xx 模型要弱，而不是无脑鼓吹遥遥领先。
这么说把，做信息分享类的自媒体，有一个算一个，肯定会夹带私货，在我看来，有一个算一个都是傻逼。而看自媒体说的就深信不疑的人也是傻逼。

我自始至终，从大模型刚能聊天，到现在 agentic ，Deepseek 虽然不是最强的那个，但是一直都是我的主力，不为别的，我坚定的站在这样一个不焦虑，不浮躁的人和公司这边。（而 minimax 我根本试都没试过，不感兴趣。）

metalvest

Apr 26

GLM5.1 天气温度假，为什么排第一？

weilongs

Apr 26

minimax2.7 排不到那个位置.

Desiree

Apr 26

暂时只用过 Glm 跟 minimax2.7 挺垃圾的，glm 勉强能用，但是比 cc 跟 codex 还是差一大截，minimax2.7 是完全不能用

zzz123456qqq

Apr 26

啊

richardwong

Apr 26

GLM5.1 不支持多模态挺难受的

owt5008137

Apr 26 via Android

@richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。

Azmeont

Apr 26

GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强，但 DSv4 胜在 1M 上下文

issakchill

Apr 26

看到 minimax 不上桌就放心了

Lighfer

Apr 26

不测一下 qwen3.6 27b 吗?据说编程能力也也很强？

xiaomushen

Apr 26

基本同意，今天高强度用 DeepSeek V4 Pro

xiangqiankan

Apr 26

deepseekv4 只是编码方面的后训练不足，架构设计上这是唯一的真神，理论上是开源模型的天花板

mingtdlb

Apr 27

GLM 是写代码比较强吗？我感觉他 chat 有点拉

iamzz

Apr 27

难兄难弟。

shuiduoduo

Apr 27 via iPhone

和 claude4.7 对比一下呢

passion336699

Apr 27

minimax 不做评价...

lizhesystem

Apr 27

minimax 确实拉，不在一桌，不过周末使用了 DeepSeekV4 Pro 确实超乎预期，如果暂时没有好用的模型我会优先选择用它。

Danswerme

Apr 27

@shuiduoduo Claude Opus 4.7 不用对比，现在是全球范围内断崖式领先。

aikilan

Apr 27

minimax 确实不行，之前自己写的应用去测试接入第三方 provider 的时候，用这家测试了下我一度怀疑是我自己的接入方式有问题

MagicLi

Apr 27

kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。

junwind

Apr 27

目前国内 glm5.1 ，kimi2.6 ，dsv4 可以选择，哪个能订阅，哪个便宜就用哪个。dsv4 我看好后期上华为卡后，价格再降一大波，并且应该也不会有订阅售罄的烦恼。

goodryb

Apr 27

这个测试多少有点敷衍了，网页版都是聊天的，测试编码起码用个 CLI 试一试吧

Adyun

Apr 27

minimax 纯拉 29 元送了

ethanpeng

Apr 27

codex 5.5 xhigh

思考过程：

WashFreshFresh

Apr 27

@Danswerme #35 你是忘记加狗头了吗，不是默认都 4.6>4.7

mscsky

Apr 27

minimax 没算力了吧

hotbaidu

Apr 27

@zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ，我在其他平台测试 deepseek v4 flash 智力不如 kimi

mscsky

Apr 27

要比也是本地部署了比

Tink

PRO

Apr 27

minimax 真的是烂完了，问着问着给我爆乱码了

jlkm2010

Apr 27

GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5

jimrok

Apr 27

minimax 确实弱智，以后可以从测评里面剔除掉。

fkdtz

Apr 27

@BestEicky 兄弟心直口快

brucedone

Apr 27

"不诱于誉，不恐于诽，率道而行，端然正己。" 就这个态度，做的事儿，这价格，就已经很顶了，编码不足人家自己也说了，不足就是不足，你也要让人家进步呀。

o99o

Apr 27

大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么？感觉用的很快。10 块钱的 token 很快就没了。

fkdtz

Apr 27

在我印象里 minimax 效果还不错啊，甚至在打开这篇帖子之前我一直都这样以为，
怎么反差这么大？一直就这么拉吗？之前是营销号借着龙虾风无脑吹的吗？
有没有兄弟知道咋回事？

zenfsharp

Apr 27

@hotbaidu #44 有的兄弟，pro 和 flash 都有的。

coldle

Apr 27

@fkdtz #52
minimax 一直狂蒸 claude ，在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回，从 m2.5 开始就完全跟不上了，所谓的火只是卡在一个「效果比他好的模型参数大价格贵，参数比他小的模型效果比他差」的临界点，在养虾普遍 token 焦虑的时候搭了下顺风车

现在 deepseek-v4-flash 出来直接替换生态位，要多模态有 k2.6 ，要性价比有 v4f

wwhc

Apr 27

楼主的测试有偏差，本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染，本地部署的 gpt-oss 120B 倒真是惨不忍睹，生成的的代码渲染出的页面没法看

xixka

Apr 27

我自己的使用感受，Kimi 代码弱，glm 幻觉高，都只能是勉强

qxq94

Apr 27

Minimax2.7 确实一句提示词垃圾，得补充一次功能无法运行，UI 界面太丑了。生成的也就还能看
![MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif]( https://cdn.nodeimage.com/i/MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif)

litchinn

Apr 27

1M 上下文到底关不关键，在大型项目或长期开发中是否起关键作用呢？

Jiajin

Apr 27

本地部署的 qwen3.6-27B-FP8
cli 工具：claude code

温度用的真实接口，检索城市有问题，但是定位自己的位置是完全正确的，温度显示也没问题。

![天气](

)

coldle

Apr 27

@litchinn #58
注意力不严重丢失的话，读大项目非常有用，实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了，ds 还在正常聊的时候 glm 已经流口水了（

不过 ds 编程能力本身可能没 glm 那么特化（也可能是后训练不足的缘故），落实到具体写代码场景反而不如注意力飞速丢失的 glm

tangwz

Apr 27

我实测了 DeepSeek V4 ，整理来说也是第一梯队，不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。

参考： https://www.bilibili.com/video/BV1gSoUBYEdV/

Jiajin

Apr 27

@wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词，测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。

junwind

Apr 27

@Jiajin 那你又搞错了，正是在这种都不依赖别的工具下测试，才能体现模型本身的底色。

lear7

Apr 27

个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果，比 Sonnet 4.6 可能还差一点点。

至于其他国内大模型，我不用，浪费金钱是一回事，还浪费生命。

Jiajin

Apr 27

@junwind 我的意思是你应该在同一个 agentic 工具（比如 claude code ）下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词，甚至还有降智、限流。

wwhc

Apr 27

@Jiajin
@junwind
不依赖别的工具，本地部署的 Qwen3.6 27B/35B 也能达到 GLM 的水准当使用“帮我生成一个天气查询 H5 应用”这个提示词

binaryify

Apr 27

@junwind #10 kimi 白天限速,晚上飞快

ty29022

Apr 27

同意 minimax 是坨屎的结论

一句话的提示词，生成一个前端页面，用来评估编程性能，是不是有些片面呢

hotbaidu

Apr 27

@zenfsharp 那我也去订阅试试，昨天只体验 v4 flash 效果不好

calpes

Apr 27

你们每天测的都是啥场景，都是一句话小需求吗？都不说 harness 的场景，就标准 spec 模式下涉及超过 5 个服务的需求，你们那 200k 的上下文能 plan 出来个正经东西吗？ ds4 最屌的不就是这个注意力打折的不是很厉害的 1M 上下文吗

jaoyina

Apr 27

@zenfsharp

deepseek 有国家战略意义，

jaoyina

Apr 27

@richardwong

glm 的策略是不同模态用分开的模型，我记得官网有说明，它另外有个带名称里 v 的模型。

xiaomushen

Apr 27

@calpes 总不能让他们拿着正经项目去测试吧，哈哈哈

calpes

Apr 27

@xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗？

xiaomushen

Apr 27

@calpes 不然呢？正经项目哪儿可能这么短时间，正经测一遍？

xzpjerry731

Apr 27 via iPhone

Op 是在本地跑的吗

evilgod528

Apr 27

glm5.1 和其它（目前后端领域使用下来的体会），希望 ds v4 快点优化上来，干掉 Z➗

justxwy

Apr 27

https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。

KingGaruda

Apr 27

我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试？感觉偏差源于官方优化。我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。

loolac

Apr 27

这样儿比较没意义，信息供应都不一致，deepseek-v4 的数据都还是 2025 年 5 月前的。

感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多，但是 deepseek-v4 感觉比 kimi2.6 好很多。

stdout

Apr 27

mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力，写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊

xFrye

Apr 27

对比之下 minimax 是路边的，官方的 kimi2.6 我觉得还不错，就是消耗有点快

kashao

Apr 27

@stdout mimo V2.5 pro 的上下文记忆打折不，我记得比 ds V4pro 多了多模态，但是 Token Plan 确实小贵

phli

Apr 27

这是 gemini 3.1 pro 网页端生成的。
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
<title>极简天气 H5</title>
<script src="https://unpkg.com/vue@3/dist/vue.global.js"></script>
<script src="https://cdn.tailwindcss.com"></script>
<style>
/* 隐藏滚动条但保留滚动功能 */
.no-scrollbar::-webkit-scrollbar {
display: none;
}
.no-scrollbar {
-ms-overflow-style: none;
scrollbar-width: none;
}
</style>
</head>
<body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4">

<div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden">
<div class="relative mb-6">
<input
v-model="searchCity"
@keyup.enter="getWeather"
type="text"
placeholder="输入城市名称，如：北京"
class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700"
>
<button
@click="getWeather"
class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium"
>
查询
</button>
</div>

<div v-if="loading" class="text-center py-10">
<div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div>
<p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p>
</div>

<div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl">
{{ errorMessage }}
</div>

<div v-else-if="weatherData" class="fade-in">
<div class="text-center mb-6">
<h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2>
<p class="text-gray-500 mt-1">{{ weatherData.date }}</p>
</div>

<div class="flex items-center justify-center mb-6">
<span class="text-6xl mr-4">{{ weatherData.icon }}</span>
<div>
<div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div>
<div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div>
</div>
</div>

<div class="grid grid-cols-2 gap-4">
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">💧</span>
<div>
<div class="text-xs text-gray-500">湿度</div>
<div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">💨</span>
<div>
<div class="text-xs text-gray-500">风速</div>
<div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">🌡️</span>
<div>
<div class="text-xs text-gray-500">体感温度</div>
<div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div>
</div>
</div>
<div class="bg-white/60 p-3 rounded-xl flex items-center">
<span class="text-2xl mr-2">👁️</span>
<div>
<div class="text-xs text-gray-500">能见度</div>
<div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div>
</div>
</div>
</div>
</div>

<div v-else class="text-center py-12 opacity-50">
<span class="text-6xl block mb-4">🌍</span>
<p class="text-gray-500">搜索你关心的城市天气</p>
</div>
</div>

<script>
const { createApp, ref, onMounted } = Vue;

createApp({
setup() {
const searchCity = ref('');
const weatherData = ref(null);
const loading = ref(false);
const errorMessage = ref('');

// 模拟天气数据映射（用于演示）
const mockIcons = { '晴': '☀️', '多云': '⛅', '阴': '☁️', '雨': '🌧️', '雪': '❄️' };

const getWeather = async () => {
if (!searchCity.value.trim()) return;

loading.value = true;
errorMessage.value = '';
weatherData.value = null;

try {
// [开发建议]
// 此处应替换为真实的接口请求，例如和风天气 (QWeather) 或 OpenWeatherMap
// const API_KEY = 'your_api_key';
// const response = await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`);
// const data = await response.json();

// 模拟 API 延迟
await new Promise(resolve => setTimeout(resolve, 800));

// 模拟数据结构拦截与拼装
if (searchCity.value.length > 10) {
throw new Error('未找到该城市信息');
}

const randomTemp = Math.floor(Math.random() * 30) + 5;
const descriptions = ['晴', '多云', '雨', '阴'];
const desc = descriptions[Math.floor(Math.random() * descriptions.length)];

weatherData.value = {
city: searchCity.value,
date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }),
temp: randomTemp,
feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2),
description: desc,
icon: mockIcons[desc],
humidity: Math.floor(Math.random() * 50) + 30,
windSpeed: Math.floor(Math.random() * 20) + 5,
visibility: Math.floor(Math.random() * 10) + 5
};
} catch (error) {
errorMessage.value = error.message || '获取天气信息失败，请稍后重试';
} finally {
loading.value = false;
}
};

// 初始加载默认城市
onMounted(() => {
searchCity.value = '北京';
getWeather();
});

return {
searchCity,
weatherData,
loading,
errorMessage,
getWeather
};
}
}).mount('#app');
</script>
</body>
</html>

slowgen

PRO

Apr 27

这个测试也太不严谨了。

开源模型的参数是有推荐的，不同的模型对于不同的任务场景，temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同，你用网页版都不知道人家默认是针对什么场景配置的，做测试对比是要根据你自己的任务场景去设置的。

甚至是量化部署方案，比如同样 NVFP4 的量化，还要看用了什么数据集校准。

我就这么说吧，我本地部署的 MiniMax M2.7 （ nvidia 放出的 NVFP4 量化）和 Qwen 3.6 35B-A3B （ RedHatAI 放出的 NVFP4 量化）、Qwen 3.6 27B （ mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ），分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ，写出来的 html 都和你提到能上桌的模型都差不多。

junwind

Apr 27

@slowgen 我不管这那的，我只想知道我一句话的需求，谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗，比如生图，image2 出来，满足了我对于一句话生图结果的预期。这是之前用其它生图模型都无法达到的效果。我觉得未来的 AI 就是这样，没必要写各种专业的提示词，我就用人话，你给我出符合预期的结果，然后在这个符合预期的结果上精修。

mewking

Apr 27

@slowgen unsloth 的 UD + NVFP4 ？？这个没看到啊，只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ，而且不明这东西到底跑在 mac 上还是黄卡上？？

slowgen

PRO

Apr 27

@mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
从命名风格来说 UD 就是动态量化，带 MLX 的就是用 Apple 的 MLX 跑的，NVFP4 作为压缩保存的格式。

v400127

Apr 28

综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗

cskason

Apr 28

现阶段 GLM5.1 好比较好，刚开始使用 minimax2.7 的时候，觉得还不错，用了大半个月后经常超时，再过了一段时间发现降智到原来十分之一

calpes

May 6

@xiaomushen 所以说这种测评有啥用啊，默认就是个赛博斗蛐蛐，我这几天深度体验了一下在正式项目里的使用场景，1m 上下文带来的优势是巨大的，之前很多蹩脚的上下文工程基本上都不用了，更少的 subagent 带来了更完整的上下文，尤其是陈年累月老 bug ，跨多个服务的排查能力，比只有 200k 上下文的模型强太多了

xiaomushen

May 6

@calpes 咋说呢，如果是陈年大项目，光 1M 上下文还不够，还得注意力不丢失。
当然，现在 1M 普及化，下半年 A 家估计要卷 10M 上下文

jakeyfly

May 18

glm 一个文本模型是如何搞 ui 的？